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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科 
学 的 各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 
年 间 名 家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结 
合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 
学 著作 ， 不 仅 璧 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 
性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需 
求 日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教 
育 战略 上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计 
算 机 科学 发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 
国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 亲 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 
了 良好 的 合作 关系 ; 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne 
Stroustrup, Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. 
Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, 
John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ” 
为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 
和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 
了 中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 
作品 在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 
版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 
和 参考 书籍 。 其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 


采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 
们 的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 
逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 
尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读 
者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010) 88379604 | 

联系 地 址 。 北 京 市 西城 区 百 万 庄 南 街 ] 号 cane 

邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 


| 译 者 序 


Great Principles of Computing 


计算 机 及 其 相关 技术 正在 广泛 而 深刻 地 改变 着 我 们 的 生活 。 没 有 哪 门 科学 像 计算 机 
科学 这 样 ， 能 够 与 其 他 科学 领域 产生 出 如 此 多 的 交叉 。 尤 其 是 近年 来 云 计算 、 大 数据 、 移 
动 应 用 、 机 器 学 习 、 人 工 智能 等 ， 更 是 引起 了 人 们 的 广泛 关注 。 计 算 机 是 如 此 的 神奇 ， 但 
是 人 们 却 很 少 能 够 真正 了 解 计 算 机 是 如 何 运行 并 完成 复杂 的 工作 的 。 人 们 对 于 计算 机 的 理 
解 似乎 总 是 隔 着 一 层面 纱 ， 有 时 清晰 ， 有 时 却 又 很 模糊 ， 甚 至 很 多 计算 机 专业 人 员 也 同样 
会 有 这 种 感觉 。 

本 书 并 不 是 单纯 地 介绍 计算 机 技术 ， 而 是 重新 审视 和 理解 计算 本 质 ， 或 者 说 阑 述 “ 计 
算 之 道 ”。 本 书 从 一 个 不 同 的 视角 ， 把 计算 看 作 是 一 门 遵从 一 组 基本 原理 的 科学 ， 所 有 计 
算 机 相关 的 技术 都 可 以 从 这 组 基本 原理 中 找到 依托 。 具 体 而 言 ， 本 书 提供 了 一 种 重要 原理 
框架 ( great principle framework) 来 刻画 计算 科学 中 最 具 基 础 性 的 基本 原理 。 它 将 计算 原 
理 分 为 6 类 : 通信 、 计 算 、 协 作 、 记 忆 (存储 )、 评 估 和 设计 ， 而 在 阐述 时 又 将 其 所 覆盖 
的 范围 分 成 11 个 更 容易 管理 的 模块 ， 其 内 容 涵 盖 了 计算 的 方方面面 一 一 包括 计算 机 是 如 
何 工作 的 、 如 何 选择 算法 、 计 算 系 统 是 如 何 组 织 的 ， 以 及 如 何 进行 正确 而 可 靠 的 设计 等 。 

正如 作者 所 说 ， 这 本 书 是 为 所 有 想 利 用 计算 科学 及 相关 技术 来 实现 特定 目标 的 人 而 
设计 的 。 在 介绍 关于 计算 的 基本 原理 时 ， 作 者 深思 熟 虑 地 综合 描述 了 计算 背后 的 基本 概 
念 ， 并 试图 以 一 种 “任何 对 计算 有 一 定 了 解 的 人 都 能 理解 ”的 方式 呈现 。 因 此 ， 与 其 他 深 
入 剖析 特定 技术 的 书籍 不 同 ， 本 书 努 力 为 读者 构建 一 个 关于 计算 的 全 面 视图 ， 而 更 深入 的 
知识 则 需要 (或 者 值得 ) 读者 自己 不 断 去 发 掘 、 吸 收 ， 并 将 它们 连贯 起 来 。 

本 书 的 作者 之 一 Peter J. Denning 教授 曾 是 ACM 的 主席 ， 是 若干 基本 计算 原理 的 发 
现 者 ， 也 一 直 非 常 关 注 计 算 科 学 的 教育 ， 并 且 早 在 20 世纪 90 年 代 就 开始 本 书 内 容 的 研 
究 、 整 理 以 及 教育 实践 。 本 书 的 作者 发 现 ， 随 着 核心 技术 的 增加 ， 对 于 初学 者 来 说 ， 原 理 
框架 比 技术 框架 更 容易 理解 。 本 书 的 原理 框架 并 不 是 重新 定义 计算 的 核心 知识 ， 但 它 确 实 
提供 了 一 种 看 待 该 领域 并 降低 其 表面 复杂 性 的 新 方式 。 从 这 个 意义 上 来 说 ， 基 于 原理 的 
“计算 ”教学 ， 可 以 帮助 初学 者 抑或 专业 人 员 更 加 容易 地 构建 一 个 关于 计算 的 全 面 视图 ， 
是 一 种 非常 值得 去 实践 的 教育 理念 。 另 一 方面 ， 本 书 关于 基本 计算 原理 的 讨论 也 一 定 会 启 
发 更 多 的 人 对 “计算 之 道 ”进行 广泛 而 深入 的 思考 。 


VI 


本 书 由 北京 大 学 计算 概论 课程 组 的 几 位 老师 共同 翻译 ， 具 体 分 工 如 下 : 前 言 ， 第 8、 
9 章 及 相关 内 容 由 罗 英 伟 、 张 彬 彬 翻译 ， 并 由 罗 英 伟 负 责 全 书 翻译 工作 的 组 织 和 协调 ; 序 ， 
第 3、11、12 章 及 相关 内 容 由 高 良 才 翻译 ; 第 1、2、5、10 章 及 相关 内 容 由 张 伟 翻译 ; 第 4、 
6、7 章 及 相关 内 容 由 熊 瑞 勤 翻译 。 译 稿 之 中 倘若 有 不 当 之 处 ， 敬 请 读者 批评 指正 。 
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Peter J. Denning 和 Craig H. Martell 提出 并 研究 了 一 个 具有 里 程 碑 意义 的 话题 : 识别 
并 阅 明 一 些 原理 ， 使 计算 机 做 “我 们 希望 的 ”并 努力 减少 其 与 计算 机 “实际 做 的 ”( 即 我 们 
的 命令 ) 之 间 的 差异 。bug (程序 错误 ) 就 是 这 种 差异 的 典型 例子 。bug 通常 是 由 于 编程 中 
玻 忽 大 意 导致 机 器 做 了 “我 们 所 不 希望 的 ”而 出 现 的 一 种 结果 。 但 是 程序 错误 并 不 是 bug 
的 唯一 来 源 和 表现 形式 ， 程 序 执行 过 程 中 的 意外 突 发 行为 也 会 导致 bug 的 产生 ， 具 有 五 花 
八 门 的 软件 和 交互 界面 的 计算 机 网 络 经 常 是 这 种 意外 突 发 行为 的 来 源 。 我 们 有 时 候 讲 “网 
络 效应 ”， 其 中 ， 某 些 未 曾 设想 过 的 特征 会 突然 出 现 ， 并 有 可 能 强化 为 有 力 的 趋势 。 在 某 
个 应 用 程序 以 一 种 难以 预料 的 方式 投入 使 用 时 ， 这 种 情况 很 可 能 发 生 ， 垃 圾 邮件 和 钓鱼 邮 
件 就 是 大 规模 网 络 中 邮件 应 用 的 一 个 意外 突 发 行为 。 

这 样 的 效应 使 得 理解 、 预 测 和 分 析 大 规模 网 络 中 大 型 软件 系统 所 出 现 的 复杂 行为 变 
得 非常 困难 。 即 使 系统 中 的 每 一 个 部 件 都 按照 其 设计 参数 运行 ， 整 个 系统 仍 可 能 因为 组 件 
间 不 可 预测 的 交互 而 产生 不 确定 的 结果 。 

复杂 突 发 行为 的 出 现 也 可 能 仅仅 因为 计算 机 是 有 限 的 。 数 字 化 信息 在 表示 上 常常 包 
括 细小 的 错误 或 误差 ， 然 而 小 错误 经 过 数 十 亿 步 的 计算 后 很 有 可 能 积聚 成 大 灾难 。 一 个 非 
常 具体 的 例子 就 是 有 限 精 度 的 浮 点 数 运算 ， 正 如 2005 年 数值 计算 会 议 上 William Kahan 
在 他 的 论文 中 展示 的 那样 "， 舍 人 误差 以 及 对 非常 大 或 非常 小 的 值 的 人 工 处 理 都 可 能 导致 
灾难 性 的 后 果 。 

这 些 效应 教会 我 们 ， 让 计算 机 代表 我 们 来 做 事 是 一 个 不 平凡 的 、 高 度 智 能 化 的 尝试 。 因 
此 ， 本 书 试图 洞察 一 些 基 本 计算 原理 ， 使 得 我 们 的 方法 和 尝试 能 在 最 普遍 意义 上 适应 计算 。 

本 书 内 容 组 织 为 11 章 ， 每 一 章 的 内 容 在 与 计算 相关 的 活动 中 均 起 着 重要 作用 。 我 认 
为 这 些 内 容 在 辅助 “计算 ”上 是 调度 和 管理 资源 的 焦点 。 计 算 即 利用 计算 机 和 软件 达到 特 
定 目标 ， 这 是 一 个 故意 模糊 化 的 说 法 。 在 计算 目标 上 ， 使 一 个 电脑 游戏 工作 和 使 一 个 分 布 
式 网 络 化 的 复杂 金融 交换 系统 工作 是 差不多 的 。 而 且 ， 即 使 计算 目标 不 同 ， 在 管理 调度 资 
源 一 一 信息 表示 、 通 信 、 计 算 单元 、 程 序 、 内 存 、 建 模 和 分 析 等 方面 ， 一 些 具体 的 计算 原 
理 仍 然 可 以 帮助 到 设计 师 。 本 书 的 总 体 意图 就 是 提出 促使 这 些 计算 目标 实现 的 基本 原理 ， 
这 一 努力 在 广度 和 深度 上 均 十 分 突出 。 
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让 计算 如 此 有 趣 的 一 个 因素 是 二 进 制 表示 的 普 适 性 。 我 们 可 以 让 比特 位 按照 自己 的 
想法 代表 任何 事物 ， 亦 能 以 多 种 方式 操作 这 些 比特 并 从 多 种 角度 解释 操作 结果 。 就 像 把 代 
数 应 用 题 转换 为 方程 ， 根 据 直 接 的 数学 规则 来 获取 初始 方程 的 解 一 样 ， 我 们 编写 程序 ， 并 
按照 可 以 产生 既定 解释 结果 位 的 规则 来 操作 比特 位 。 大 规模 模拟 、 大 数据 以 及 复杂 视觉 泻 
染 都 具有 这 种 属性 ， 这 些 工 作 均 可 用 来 辅助 我 们 理解 并 解释 所 操作 的 比特 位 。 

我 一 直 是 “在 高 中 、 初 中 (甚至 可 能 更 早 ) 阶段 教授 编程 ”的 坚定 支持 者 ， 原 因 之 一 
在 于 编程 对 问题 求解 思维 的 系统 训练 。 在 编程 这 一 活动 中 ， 学 生 需 要 分 析 问 题 ， 将 问题 分 
解 为 可 管理 的 模块 ， 想 出 程序 需要 怎样 做 才能 解决 问题 (产生 想 要 的 结果 )， 然 后 完成 纺 
程 的 整个 过 程 : 编写 程序 ， 利用 已 有 的 库 ， 如 果 可 能 的 话 编译 并 运行 程序 ， 验 证 程序 是 否 
产生 了 想 要 的 结果 。 最 后 一 种 训练 (我 们 可 称 之 为 调试 与 验证 的 结合 ) 是 一 种 不 仅仅 适用 
于 编程 的 技能 。 尽 管 我 并 不 提倡 每 一 个 人 都 成 为 程序 员 ， 但 学 会 良好 编程 中 所 用 的 技能 是 
非常 有 价值 的 ， 因 为 这 些 技能 对 其 他 许多 问题 也 广泛 适用 。 

编程 技能 可 以 在 处 理 复杂 系统 设计 和 分 析 时 起 作用 ， 在 这 里 我 们 接触 到 了 Denning 
和 Martell 在 “设计 ”这 一 章 中 强调 的 非常 重要 的 一 个 领域 。 好 的 设计 有 许多 有 用 的 性 质 ， 
这 让 我 想起 了 一 句 名 言 一 一 “整洁 自 有 回报 ”， 因 为 你 可 以 在 需要 时 找到 整理 好 的 东西 。 
好 的 设计 也 自 有 回报 ， 因 为 它 有 助 于 理解 复杂 性 ， 并 且 具 有 通过 演化 、 修 正 设计 以 达到 
新 目标 的 能 力 。 在 互联 网 设计 中 ,我们 从 先驱 ARPANET 那里 汲取 了 教训 ， 因 为 它 无 法 
在 规模 上 扩展 。 然 后 我 们 设想 了 系统 功能 的 分 层 并 规范 化 层级 间 的 接口 ， 结 果 是 在 保持 这 
些 接 口 稳定 的 情况 下 ， 容 许 不 同 层 在 接口 间 实现 与 再 实现 的 巨大 灵活 性 。IP 协议 是 一 个 
很 好 的 例子 ， 应 用 程序 的 设计 者 对 于 IP 数据 包 如 何 运输 (协议 并 未 明确 ) 一 无 所 知 ， 协 
议 本 身 也 不 依赖 于 数据 包 载 荷 运输 的 是 什么 一 一 载荷 中 比特 位 的 含义 是 不 清楚 的 。 这 种 设 
计 的 一 个 结果 是 自 20 世纪 70 年 代 开 始 IP 协议 位 于 每 一 种 新 设计 的 通信 系统 的 层级 之 上 ; 
另 一 个 结果 是 新 的 应 用 程序 不 用 改变 网 络 就 可 放 在 互联 网 上 ， 因 为 IP 协议 可 将 数据 包 传 
输 给 互联 网 上 的 软件 。 只 有 发 送 和 接收 的 主机 需要 知道 数据 包 运 输 的 载荷 比特 位 是 什么 意 
思 ， 传 输 数 据 包 的 路 由 器 也 无 需 依 赖 数据 包 载 荷 的 内 容 。 

设计 之 于 计算 的 作用 怎样 强调 都 不 过 分 。 不 管 是 硬件 、 操 作 系统 、 应 用 程序 、 数 据 、 
文件 目录 结构 或 者 语言 的 选择 ， 归 结 到 底 都 是 思考 设计 以 及 设计 的 组 合 一 一 系统 怎样 工 
作 ， 虽 然 有 时 人 们 很 少 听 说 术语 系统 工程 。 我 是 一 名 系统 设计 师 ， 乐 于 思考 架构 相关 的 问 
题 : 所 有 的 部 分 如 何 组 装 到 一 起 ?每 一 部 分 应 该 是 什么 ”设计 如 何 适 应 新 的 需求 ?设计 可 
维护 吗 ?” 教会 其 他 人 如 何 设 计 困难 吗 ? 








对 于 好 的 设计 ， 一 个 有 趣 的 测试 是 看 新 接触 某 系统 的 人 在 不 破坏 之 前 设计 功能 的 基 
础 上 能 和 否 让 系统 做 一 些 新 的 事情 。 在 某 种 程度 上 ， 这 是 对 一 个 人 理解 程序 或 系统 及 其 架构 
的 一 个 十 分 有 力 的 测试 。 你 可 能 不 需要 了 解 系统 的 所 有 细节 ， 但 你 需要 了 解 足够 多 以 确 
保 你 的 改动 不 会 产生 预料 之 外 的 后 果 ， 这 就 是 干净 设计 的 含义 ， 即 设计 能 够 合理 地 且 安 
全 地 进行 改动 。 我 很 高 兴 本 书 非常 重视 设计 ， 并 强调 架构 (不 仅仅 强调 算法 ) 对 于 设计 的 
作用 。 

关于 计算 的 基本 原理 还 有 许多 可 以 说 的 ,但 那 正 是 本 书 接 下 来 的 要 点 。 记 住 这 些 原 
理 将 使 计算 系统 的 设计 更 加 可 控 ， 继 续 阅 读 吧 ! 


Vint Cerf 
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2014 #4 A 


前 | 


Great Principles of Computing 


就 在 70 年 前 ， 除 了 少数 专家 之 外 ， 没 有 人 听 说 过 计算 机 。 现 在 ， 计 算 机 、 软 件 和 网 
络 无 处 不 在 。 在 地 球 上 的 任何 地 方 ， 它 们 都 以 更 快 的 发 展 速度 给 我 们 的 生活 带 来 了 各 种 各 
样 的 好 处 。 

在 这 么 短 的 几 十 年 中 ， 我 们 学 会 了 设计 和 建造 如 此 规模 的 系统 ， 这 真是 一 件 令 人 吃 
惊 的 事 。 如 今 ， 通 过 支持 大 规模 合作 ， 计 算 技 术 使 得 知识 工作 能 够 自动 化 ， 同 时 也 在 不 断 
扩大 生产 力 。 第 二 次 机 器 革命 正 扑 面 而 来 。 这 是 如 何 实现 的 ? 是 什么 样 的 伟大 思想 使 这 
一 切 成 为 可 能 ? 

计算 机 给 我 们 带 来 好 处 的 同时 也 带 来 忧虑 。 计 算 机 带 来 的 自动 化 是 否 会 使 很 多 工人 
失业 ? 计算 机 是 否 会 成 为 终极 监督 工具 而 使 我 们 失去 隐私 ?计算 机 是 否 会 发 展 出 超越 人 类 
的 智能 ? 计算 机 能 做 的 事情 会 有 限制 吗 ? 

我 们 相信 ， 理 解 计 算 的 原理 和 法 则 可 以 帮助 人 们 理解 计算 是 如 何 完成 如 此 之 多 的 工 
作 的 ， 并 消除 他 们 的 忧虑 。 为 此 我 们 写 了 这 本 书 ， 书 中 介绍 了 关于 计算 的 一 些 最 重要 的 原 
理 ， 并 以 任何 对 计算 有 一 定 了 解 的 人 都 能 理解 的 方式 呈现 。 

计算 机 科学 (computer science) 不 只 是 设计 计算 设备 的 工程 领域 ， 它 是 一 门 关 于 信息 
处 理 的 科学 。 计 算 受 科学 原理 和 法 则 支配 ， 这 些 原理 和 法 则 告诉 我 们 计算 机 能 做 什么 、 不 
能 做 什么 。 信 息 的 法 则 揭示 了 根据 物理 法 则 无 法 直接 得 出 的 新 的 可 能 性 和 限制 。 专 家 们 赋 
予 计算 机 许多 计算 科学 (computing science) 告诉 我 们 不 可 能 拥有 的 能 力 ， 同 时 ， 这 些 专 
家 又 低估 了 计算 机 真正 的 能 力 。 

计算 机 科学 与 很 多 其 他 领域 相互 交叉 。 许 多 科学 与 工程 领域 都 有 计算 (computational) 
分 支 ， 如 计算 物理 、 计 算 化 学 、 生 物 信息 学 、 数 字 化 产品 设计 与 制造 、 计 算 社 交 网 络 、 计 
算 心脏 病 学 等 ?。 各 层次 的 教育 者 正 努 力 在 他 们 拥挤 的 课程 表 中 加 入 计算 相关 的 课程 ， 以 
保证 课程 体系 的 先进 性 。 但 仍 有 很 多 中 学 由 于 缺少 计算 机 科学 方面 的 教师 而 不 能 开设 计算 
机 课程 。 在 商业 领域 ， 诸 如 “大 数据 ”“ 云 计算 ” “网络 安全 ”等 热门 词汇 也 散发 出 共同 的 
信号 ， 期望“ 计算 原理 ”在 数据 管理 、 分 布 式 计算 、 信 息 保护 中 发 挥 作用 。 

一 直 以 来 ， 人 们 把 计算 看 作 一 个 按照 摩尔 定律 高 速 发 展 的 技术 领域 "。 而 我 们 的 观点 
有 所 不 同 ， 我 们 相信 计算 更 应 该 被 描述 为 一 个 科学 领域 ， 具 有 跨越 所 有 计算 技术 以 及 人 工 


XI 


或 自然 的 信息 处 理 的 基本 原理 。 我 们 需要 一 种 新 的 方法 来 刻画 计算 。 就 像 望 远 镜 之 于 天 文 
学 、 显 微 镜 之 于 生物 学 ， 计 算 机 是 计算 的 工具 ， 而 非 计算 的 研究 对 象 。 

本 书 的 重要 原理 框架 ( great principles framework) 就 是 这 样 一 种 新 的 方法 。 它 将 计 
算 原 理 分 为 6 个 类 别 : 通信 、 计 算 、 协 作 、 记 忆 (存储 )、 评 估 和 设计 。 计 算 原理 是 指 用 
来 指导 或 约束 我 们 如 何 操 纵 物 质 和 能 量 来 进行 计算 的 声明 。 计 算 原理 可 以 是 :( 1) ER, 
包括 描述 可 重复 的 因果 关系 的 定律 、 过 程 及 方法 ; (2) 行为 准则 。 局 部 性 原理 (locality 
principle) 就 是 重 现 的 一 个 例子 : 每 一 个 计算 在 一 定 的 时 间 间 隔 内 ， 其 对 数据 的 访问 都 聚 
集 在 一 个 小 的 子 集 里 。 行 为 准则 的 一 个 例子 就 是 网 络 程序 员 将 协议 软件 划分 为 多 个 层次 。 
所 有 这 些 原理 的 目的 ， 都 是 希望 通过 增进 理解 和 降低 复杂 性 从 而 得 到 良好 的 设计 。 

每 种 计算 技术 都 利用 了 这 些 类 别 的 原理 。 这 个 框架 是 广泛 和 全 面 的 ， 覆盖 了 计算 的 
每 个 部 分 ， 包 括 算 法 、 系 统 和 设计 。 

从 事 计 算 工 作 的 人 员 形 成 了 许多 计算 领域 (computing domain) 实践 社区 ， 如 人 
工 智 能 、 网 络 安 全 、 云 计算 、 大 数据 、 图 形 学 以 及 科学 计算 ( computational science) 等 。 
这 些 领域 都 专注 于 推进 领域 向 前 发 展 并 与 其 他 社区 互动 ， 它 们 既 从 计算 原理 中 获 益 ， 又 受 
其 约束 。 没 有 这 些 计算 领域 的 原理 框架 是 不 完整 的 。 

由 于 这 6 个 类 别 过 于 庞大 ， 我们 决定 将 其 所 覆盖 的 范围 分 成 11 个 更 容易 管理 的 模 
块 ， 就 像 你 在 目录 中 看 到 的 那样 。 关 于 这 一 点 ， 我 们 将 在 第 1 章 中 详细 说 明 。 


从 机 器 到 通用 的 数字 化 

计算 的 机 器 是 早期 计算 领域 的 关注 中 心 (从 20 世纪 40 年 代 到 20 世纪 60 年 代 )。 计 
算 被 看 作 机 器 执行 复杂 演算 、 解 方程 、 破 译 密 码 、 分 析 数 据 及 管理 业务 流程 的 行为 。 那 时 
的 先驱 们 将 计算 机 科学 定义 为 研究 以 计算 机 为 中 心 的 各 种 现象 。 

然而 ， 这 些 年 来 ， 这 一 定义 变 得 越 来 越 没 有 意义 。20 世纪 80 年 代 的 科学 计算 运动 认 
为 ， 计 算是 除了 传统 的 理论 和 实验 之 外 的 一 种 新 的 做 科学 研究 的 方法 。 他 们 使 用 “计算 思 
HE” (computational thinking) 这 个 术语 作为 研究 和 问题 求解 的 思维 训练 ， 而 不 是 作为 建造 
计算 机 的 方法 。 十 年 之 后 ， 一 些 领域 的 科学 家 开始 发 现 各 自 领 域内 的 自然 信息 处 理 ， 其 中 
包括 生物 学 (DNA 翻译 )、 物 理学 (量子 信息 “)、 认 知 科学 (脑力 过 程 )、 视 觉 (图 像 识别 ) 
和 经 济 学 (信息 流 )。 计 算 的 重点 从 机 器 转变 到 信息 处 理 ， 包 括 人 工 信 息 和 自然 信息 。 

现在 ， 随 着 几乎 所 有 事物 的 数字 化 ， 计 算 进 入 了 人 们 的 日 常生 活 ， 包 括 求解 问题 的 
新 方法 ， 艺 术 、 音 乐 、 电 影 的 新 形式 ， 社 交 网 络 ， 云 计算 ， 电 子 商 务 ， 以 及 新 的 学 习 方 法 
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等 。 用 计算 作 比 喻 成 为 日 常 语言 中 的 必要 组 成 部 分 ， 比 如 “我 的 软件 有 反应 了 ”或 “我 的 
大 脑 骨 省 了 需要 重启 ”这 样 的 表达 方式 。 

为 了 应 对 这 些 变化 ， 各 大 学 一 直 都 在 设计 新 的 基于 原理 的 方法 来 开展 关于 “计算 ”的 

。 华 盛 顿 大 学 是 这 方面 的 先驱 之 一 ， 它 开发 了 关于 熟练 掌握 信息 技术 的 一 门 课 程 和 教 

材 ， 目 前 已 经 在 高 中 和 大 学 中 广泛 使 用 ， 以 帮助 学 生 学 习 并 应 用 基本 计算 原理 “。 教 育 考 
试 基金 会 (Educational Testing Foundation) 与 美国 国家 自然 科学 基金 会 (National Science 
Foundation) 合作 ， 开 发 了 一 门 新 的 基于 计算 原理 的 先 修 课 程 “。 现 在 很 多 人 使 用 “计算 
思维 ”这 个 词 ， 指 的 是 在 很 多 领域 和 日 常生 活 中 使 用 计算 原理 ， 而 不 仅 局 限于 科学 计算 “。 

随 着 计算 领域 的 日 趋 成 熟 ， 它 吸引 了 其 他 领域 的 众多 追随 者 。 我 们 知道 有 16 本 书 是 
为 感 兴趣 的 非 专业 人 员 来 解释 计算 的 各 个 方面 “。 大 部 分 书 关 注 的 只 是 单个 部 分 的 内 容 ， 
如 信息 、 编 程 、 算 法 、 自 动 化 、 隐 私 以 及 互联 网 原理 等 。 本 书 则 将 这 个 领域 作为 一 个 整体 
来 看 待 ， 给 出 所 有 各 部 分 如 何 组 合 在 一 起 的 系统 叙述 。 读 者 会 发 现在 所 有 这 些 部 分 的 背后 
是 一 套 连贯 的 原理 。 

根据 教授 从 其 他 专业 转 到 计算 机 科学 的 研究 生 的 经 验 ， 我 们 发 现 对 于 初学 者 来 说 ， 
原理 框架 比 技术 框架 更 容易 理解 。 当 早期 核心 技术 很 少 的 时 候 ， 用 技术 思想 的 观点 来 描述 
该 领域 是 一 种 好 方法 。1989 年 ， 美 国 计 算 机 协会 Association for Computing Machinery, 
ACM) 列 出 了 9 大 核心 技术 。 而 在 2005 4F, ACM FH TAKA 14 FH, BIT 2013 年 ， 则 
有 约 18 种 。 本 书 的 6 类 原理 框架 并 不 是 重新 定义 计算 的 核心 知识 ， 但 它 确 实 提供 了 一 种 
看 待 该 领域 并 降低 其 表面 复杂 性 的 新 方式 。 


起 源 和 目标 

我 们 经 常 被 问 及 6 类 原理 的 起 源 。20 世纪 90 年 代 ， 本 书 作者 之 一 Peter J. Denning 
在 乔治 梅森 大 学 ( George Mason University) 开始 这 个 项 目 。 他 从 众多 的 同事 那里 收集 了 
一 个 可 能 的 原理 陈述 的 列表 。 他 发 现 了 7 个 自然 的 群集 ， 并 将 它们 称 为 通信 、 计 算 、 
(存储 )、 协 作 、 评 估 、 设 计 和 自动 化 "。 当 组 织 本 书 的 时 候 ， 我 们 意识 到 自动 化 并 不 是 一 
个 操纵 物质 和 能 量 的 类 别 ， 而 是 人 工 智 能 计算 领域 的 重点 。 在 本 书 中 ， 我 们 从 类 别 集合 中 
删除 了 自动 化 ， 并 将 其 包含 在 计算 领域 中 。 

这 6 个 类 别 并 不 是 把 计算 的 知识 空间 划分 成 分 离 的 片段 。 它 们 就 像 六 角 亭 的 窗户 ， 

一 扇 窗户 都 以 独特 的 方式 呈现 出 内 部 空间 ， 但 同一 件 事 物 可 以 从 多 个 窗户 看 到 。 例 如 ， 
互联 网 有 时 以 数据 通信 的 方式 、 有 时 以 协作 的 方式 、 有 时 以 记忆 【存储 ) 的 方式 被 看 到 。 
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这 组 类 别 有 一 个 类 别 数 目 可 控 的 框架 ， 从 而 满足 了 我 们 的 目标 。 虽 然 计算 技 术 的 列表 
还 将 继续 增长 ， 计 算 领 域 的 集合 也 会 扩大 ,但 是 类 别 的 数目 在 较 长 时 间 内 应 该 会 保持 稳定 。 

这 本 书 是 关于 计算 机 科学 的 一 个 整体 视角 ， 注 重 最 深入 、 最 广泛 的 原理 ， 即 “宇宙 
普 适 的 ”原理 (cosmic principle) "。 本 书 将 计算 视 作 一 种 深层 次 的 科学 领域 ， 其 原理 将 
影响 包括 商业 和 工业 在 内 的 其 他 每 一 个 领域 。 

这 本 书 是 为 所 有 想 利用 计算 科学 来 达到 其 目标 的 人 而 设计 的 。 受 过 科学 教育 的 读者 
可 以 学 到 从 算法 到 系统 横 跨 整个 领域 的 计算 原理 。 而 计算 领域 内 的 人 ， 例 如 一 个 想 要 学 习 
并 行 计算 的 程序 员 ， 可 以 找到 这 个 巨大 领域 内 不 太 熟 悉 的 部 分 的 概述 。 对 于 大 学 里 学 习 诸 
如 “计算 机 科学 基础 ”课程 的 学 生 ， 本 书 可 以 帮助 他 们 理解 计算 技术 是 如 何 影 响 他 们 的 ， 
例如 网 络 和 互联 网 如 何 使 社交 网 络 成 为 可 能 。 初 出 茅 庐 的 科学 家 、 工 程 师 和 企业 家 可 能 在 
本 书 中 找到 一 个 面向 整个 计算 机 科学 的 科普 型 方法 。 
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Great Principles of Computing 


作为 科学 的 计算 





计算 机 科学 研究 计算 机 周边 的 各 种 现象。 
—Newell, Simon 和 Perlis 
计算 机 之 于 计算 机 科学 ， 正 如 望远镜 之 于 天 文学 。 
—Edsger W. Dijkstra 


计算 与 科学 密 不 可 分 : 计算 不 仅仅 是 一 种 数据 分 析 的 工具 ， 更 是 一 种 用 于 思考 和 发 
现 的 方法 。 

这 种 观点 的 形成 并 得 到 广泛 认同 经 历 了 曲折 的 过 程 。 计 算是 一 门 相 对 年 轻 的 学 
科 ， 其 作为 一 个 学 术 研究 领域 确立 于 20 世纪 30 年 代 ， 确 立 的 主要 标志 是 由 Kurt Gödel 
(1934), Alonzo Church ( 1936 )、Emil Post ( 1936 )、Alan Turing (1936) 等 人 所 发 表 的 
一 组 重要 论文 。 这 些 研 究 者 敏锐 地 意识 到 了 自动 计算 的 重要 性 ， 为 “计算 ”这 个 概念 商定 
了 必要 的 数学 基础 ， 并 探讨 了 实现 自动 计算 的 不 同 模型 。 但 人 们 很 快 就 发 现 ， 这 些 看 似 不 
同 的 计算 模型 实际 上 是 等 价 的 ， 即 由 一 种 模型 所 描述 的 计算 过 程 总 能 够 被 其 他 模型 所 描 
述 。 而 更 为 值得 关注 的 是 ， 这 些 不 同 的 计算 模型 都 指向 了 一 个 共同 的 结论 : 某 些 具有 现实 
意义 的 问题 (例如 一 个 算法 是 否 能 够 终止 ) 并 不 能 通过 计算 的 方式 进行 求解 。 

在 这 些 研究 者 所 处 的 时 代 ,“ 计 算 ” 和 “计算 机 ”这 两 个 术语 已 经 得 到 了 广泛 的 使 用 。 
那 时 ， 计 算 指 的 是 求解 数学 函数 的 机 械 步 又 ， 计 算 机 则 指 的 是 执行 计算 的 人 。 作 为 对 这 些 
研究 者 所 开创 的 胃 新 领域 的 致敬 ， 第 一 代数 字 计 算 机 的 设计 者 通常 会 将 其 所 构造 的 系统 命 
名 为 一 个 带 有 后 级 字符 串 “AC” 的 名 字 ， 其 含义 为 自动 计算 机 ( automatic computer) 或 
类 似 的 变 体 。 这 些 名 字 的 典型 代表 包括 ENIAC, UNIVAC, EDVAC, EDSAC 等 。 

在 第 二 次 世界 大 战 的 初期 ， 美 、 英 两 国 的 军 方 开始 对 自动 计算 机 产生 兴趣 ， 他 们 想 使 
用 自动 计算 机 进行 弹道 计算 和 密码 破译 。 为 此 ， 他 们 资助 了 若干 项 目 进行 电 子 计 算 机 的 设 
计 与 实现 。 在 二 战 结 束 前 ， 只 有 一 个 项 目 顺利 完成 。 这 是 一 个 设 在 英国 布 莱 切 利 公 园 的 绝 
密 项 目 。 这 个 项 目 使 用 由 阿兰 图 灵 设 计 的 方法 成 功 破译 了 德军 使 用 的 Enigma 密码 系统 。 

在 20 世纪 50 年 代 初 ， 很 多 参与 这 些 项 目的 研究 人 员 开 始 创办 计算 机 公司 。20 世纪 














50 年 代 末 ， 大 学 也 开始 进行 计算 机 领域 的 研究 项 目 。 从 此 以 后 ,计算 机 领域 的 学 术 研 究 和 
工业 实践 开始 持续 地 增长 ， 直 到 我 们 目前 所 看 到 的 一 个 现代 化 的 庞然大物 。 这 个 庞然大物 
包含 了 海量 的 互联 网 连接 和 数 不 清 的 数据 中 心 ， 据 说 消耗 了 全 世界 所 生产 的 3% 的 电能 。 





图 1.1 查理 斯 ' 巴 贝 奇 (Charles Babbage, 1791—1871, ÆR) 发 明了 差分 机 ， 一 种 机 械 式 的 算术 
运算 机 器 。 后 来 ， 他 提出 了 分 析 机 的 设计 方案 : 该 方案 如 果 能 够 实现 ， 则 有 望 成 为 一 种 通 
用 计算 机 。Ada Lovelace ( 1815 一 1852， 右 图 ) 帮助 Charles Babbage 完成 了 分 析 机 的 设计 。 
Lovelace 的 视野 不 仅仅 局 限 在 数字 计算 上 ， 而 是 扩展 到 了 谱 曲 、 绘 画 ， 甚 至 逻辑 推理 等 领 
域 。 在 1843 年 ， 她 编写 了 一 段 能 够 使 用 分 析 机 计算 伯 努 利 数 列 的 程序 。 她 也 因此 被 称 为 世 
界 上 “第 一 个 计算 机 程序 员 ” (来源 : Wikipedia Creative Commons) 

在 其 青年 时 期 ， 计 算 对 于 已 有 的 科学 和 工程 领域 而 言 ， 是 一 种 难以 被 理解 的 新 兴 
物 。 对 于 不 同 的 观察 者 而 言 ， 第 一 眼看 上 去 ， 计算 像 是 一 种 对 数学 、 电 子 工程 或 其 他 科学 
领域 的 技术 应 用 ( 译 者 注 : 即 ， 计 算 来 源 于 这 些 领 域 , 没有 这 些 领域 , 计算 就 如 同 无 源 之 
水 )。 经 过 多 年 的 发 展 以 后 ， 计 算 似 乎 又 为 人 们 提供 了 无 数 的 深刻 见解 ， 打 破 了 人 们 对 计 
算 的 早期 理解 ， 即 计算 不 可 能 成 为 一 个 独立 的 领域 ， 而 必 将 被 其 来 源 领域 所 重新 吸纳 。 到 
1980 年 ， 计 算 领 域 对 于 算法 、 数 据 结构 、 数 值 方法 、 编 程 语 言 、 操 作 系 统 、 网 络 、 数 据 
库 、 图 形 图 像 、 人 工 智能 、 软 件 工程 等 方面 已 经 具备 了 相当 成 熟 的 理解 。 计 算 领域 的 伟大 
技术 成 就 芯片 、 个 人 计算 机 、 互 联网 一 一 将 计算 带 入 了 更 加 丰富 多 彩 的 境界 ， 并 促成 
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了 更 多 新 兴 子 领域 的 产生 ， 包 括 网 络 科学 、web 科学 、 移 动 计算 、 企 业 计 算 、 协 同 工 作 、 
网 络 安全 、 用 户 界面 设计 、 信 息 可 视 化 等 。 由 此 产生 的 大 规模 商业 化 应 用 为 社交 网 络 、 演 
化 计算 、 音 乐 、 视 频 、 数 字 化 摄影 、 视 觉 、 大 规模 多 用 户 在 线 游戏 、 用 户 生 成 内 容 (user- 
generated content) 以 及 其 他 领域 带 来 了 全 新 的 研究 挑战 。 

为 了 适应 这 种 持续 的 变化 ， 计 算 领域 的 名 称 在 历史 上 已 经 发 生 了 数 次 变化 。 在 20 tH 
纪 40 年 代 ， 这 个 领域 被 称 为 自动 计算 。 在 20 世纪 50 年 代 则 被 称 为 信息 处 理 。 在 20 世 
纪 60 年 代 ， 其 进入 了 学 术 界 ， 那 时 ， 美 国人 将 其 称 为 计算 机 科学 ， 欧 洲 人 则 称 其 为 信息 
学 。 到 20 世纪 80 年 代 ， 计 算 领 域 已 经 包含 了 一 组 具有 复杂 相关 性 的 子 领域 ， 包 括 计算 
机 科学 、 信 息 学 、 计 算 科 学 、 计 算 机 工程 、 软 件 工 程 、 信 息 系统 、 信 息 技 术 等 。 到 1990 
年 ,“ 计 算 ” 这 个 词 已 经 成 为 引用 这 些 领域 的 标准 术语 。 











图 1.2 阿兰 . AR (Alan Turing, 1912—1954) 认为 计算 就 是 对 数学 函数 的 求解 。1936 年 ， 他 
设计 出 一 种 后 来 被 称 为 图 灵机 (Turing Machine) 的 抽象 计算 机 器 。 这 个 机 器 由 一 条 无 限 
长 的 纸 带 和 一 个 可 沿 该 纸 带 左右 移动 的 有 限 状态 控制 器 构成 。 纸 带 上 包含 了 无 限 个 左右 排 
列 的 方 格 ， 每 个 方 格 里 可 以 存放 来 自 特定 符号 集合 的 一 个 符号 。 控 制 器 每 次 可 以 向 左 或 向 
右 移动 一 个 方 格 。 在 每 一 次 移动 前 ， 控 制 器 读 取 当 前 方 格 内 存储 的 符号 ， 并 有 可 能 在 当前 
方 格 中 写 人 新 的 符号 ， 然 后 向 左 或 向 右 移动 一 个 方 格 ， 从 而 进入 一 个 新 的 控制 状态 。 图 灵 
展示 了 如 何 构造 一 个 统一 的 计算 机 器 对 任何 计算 过 程 进行 自动 执行 。 图 灵 认 为 ， 任 何 具 有 
可 计算 性 的 函数 都 可 以 被 一 个 具体 的 图 灵机 自动 计算 。 图 灵 也 发 现存 在 一 些 不 可 计算 的 函 
数 ， 例 如 : 确定 一 个 具体 的 图 灵机 是 否 会 停机 或 陷入 无 限 循 环 (来 源 : Wikipedia Creative 


Commons) 








计算 机 科学 作为 一 个 正式 的 学 术 领 域 确立 于 1962 年 : 这 一 年 ， 美 国 的 普 渡 和 斯 坦 福 
两 所 大 学 成 立 了 计算 机 科学 系 。 在 当时 ， 这 个 领域 的 领导 者 不 仅 需要 时 刻 向 人 们 解释 这 个 
领域 到 底 是 做 什么 的 ， 还 需要 不 断 抵御 来 自 保守 评论 家 的 匣 责 。 这 些 评 论 家 认为 ， 排 除 电 
子 工程 和 数学 的 内 容 ， 计 算 机 科学 并 无 实质 性 的 新 东西 。 在 1967 4F, Allen Newell, Alan 
Perlis, Herbert Simon 对 这 种 观点 给 出 了 如 下 回应 : 计算 机 科学 是 一 门 全 方面 研究 “ 计 
算 机 周边 现象 ”的 科学 。 但 是 ,许多 传统 的 科学 家 则 反对 “这 个 领域 是 一 门 科学 ”的 观 
点 。 他 们 认为 ,真正 的 科学 关注 于 那些 在 自然 (自然 过 程 ) 中 发 生 的 现象 ， 而 计算 机 仅仅 
是 一 种 人 造物 ， 不 属于 自然 的 范畴 。 诺 贝尔 经 济 学 奖 得 主 Simon 强烈 反对 这 种 对 于 科学 
的 “自然 解释 ” 。 为 此 ， 两 年 后 ，Simon 出 版 了 一 本 名 为 《 The Sciences of the Artificial 》 
的 书 。 在 这 本 书 中 ，Simon 指出 : 除了 “以 自然 过 程 为 研究 对 象 ” 这 条 准则 之 外 ， 经 济 学 
和 计算 机 科学 符合 科学 的 其 他 所 有 既 有 准则 ， 因 此 ， 称 其 为 科学 并 无 不 妥 。 当 然 , 为 了 
区 别 于 传统 的 自然 科学 (natural science)， 可 以 将 这 类 科学 称 为 人 工 或 人 造 科学 (artificial 


science ) , 











图 1.3 在 Babbage 尝试 构造 一 个 可 以 实际 运行 的 分 析 机 的 努力 失败 之 后 的 80 年 内 ， 没 人 再 试图 去 
设计 通用 的 计算 机 器 。 在 20 世纪 30 年 代 未 ， 美 、 英 两 国 的 军 方 开始 尝试 采用 电子 机 器 进 
行 弹道 计算 和 密码 破译 。1944 年 ， 美 国 军 方 资 助 的 ENIAC 计算 机 开始 正式 运转 。 这 人 台 计 算 
机 坐落 在 宾夕法尼亚 大 学 。 这 个 项 目 由 John Mauchly 和 J. Presper Eckert 领导 。ENIAC 上 
的 第 一 批 程序 员 包 括 Kay McNulty, Betty Jennings, Betty Snyder, Marlyn Wescoff, Fran 
Bilas, Ruth Lichterman 等 人 。 这 张 图 展示 了 Jennings (Æ) 和 Bilas (47) 正在 操控 ENIAC 
的 主 控制 面板 。 在 那个 时 候 ， 计 算 机 指 的 是 人 ， 而 计算 就 是 这 些 人 的 专职 工作 ; 电子 机 器 
则 被 称 为 自动 或 电子 计算 机 。 程 序 设 计 的 主要 活动 是 在 不 同 的 插座 之 间 进 行 接线 (来 源 : 宾 
夕 法 尼 亚 大 学 ) 
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计算 的 范 型 

1962 年 之 后 的 30 年 中 ,传统 自然 科学 的 研究 者 经 常 对 “计算 机 科学 ”这 个 名 字 进 
行 质疑 。 在 计算 机 科学 这 个 新 兴 领 域 中 ,他们 可 以 很 轻易 地 看 到 工程 范 型 (系统 设计 与 
实现 ) 和 数学 范 型 (定理 证 明 ), 但 是 却 很 难看 到 太 多 的 科学 范 型 。 此 外 ， 与 Simon WAY 
解 相反 ， 这 些 研究 者 认为 科学 是 一 种 关于 自然 世界 的 方法 ， 而 计算 机 则 更 像 是 一 种 人 工 
制品 。 





图 1.4 两 位 先驱 者 John Backus ( 1924 一 2007， 左 图 ) 和 Grace Hopper ( 1902 一 1992， 右 图 ) 设 
计 出 了 高 级 程序 设计 语言 : 通过 编译 器 ， 高 级 程序 设计 语言 可 以 被 自动 转换 为 机 器 代码 。 
1957 年 ，Backus 领导 的 团队 开发 出 了 FORTRAN 语言 : 一 种 面向 数值 计算 的 高 级 程序 设计 
语言 。1959 年 ，Hopper 领导 的 团队 开发 出 了 COBOL 语言 : 一 种 面向 商业 计算 的 高 级 程序 
设计 语言 。 这 两 种 语言 至 今 仍 然 被 使 用 。 这 些 发 明 使 得 类 似 ENIAC 的 接线 式 程序 设计 彻底 
失去 了 生存 空间 ， 并 且 极 大 地 降低 了 计算 领域 的 入 门 门槛 。 自 此 以 后 ， 人 们 已 经 发 明了 数 

千 种 的 程序 设计 语言 (来 源 : Wikipedia Creative Commons) 
这 个 领域 的 创立 来 自 这 三 种 不 同 的 范 型 (工程 范 型 、 数 学 范 型 和 科学 范 型 ) '。 一 些 
人 认为 计算 是 应 用 数学 的 一 个 分 支 ， 另 一 些 人 则 认为 计算 是 电子 工程 的 一 个 分 支 ， 其 他 人 
则 认为 计算 是 面向 计算 的 科学 的 一 个 分 支 。 在 第 一 个 40 年 中 ， 这 个 领域 主要 关注 于 工程 : 
如 何 构造 可 靠 的 计算 机 及 其 网 络 以 及 如 何 开发 复杂 的 计算 机 软件 ， 吸 引 了 几乎 每 一 个 人 的 
注意 力 。 到 20 世纪 80 年 代 ， 这 些 工程 问题 基本 上 已 经 得 到 了 有 效 的 解决 ; 同时 ， 在 计 
算 机 网 络 、 超 级 计算 机 、 个 人 计算 机 的 帮助 下 ， 计 算 开 始 向 各 个 领域 快速 渗透 。 在 20 tt 
纪 80 年 代 ， 计 算 机 的 能 力 已 经 变 得 异常 强大 ?7 而 那些 具有 远见 卓识 的 科学 家 开始 意识 到 


Lé] 


计算 机 可 以 用 来 解决 科学 和 工程 中 的 重大 挑战 问题 ， 并 由 此 产生 了 “计算 科学 ”的 研究 运 
动 。 许 多 国家 的 科学 家 共同 参与 到 这 一 运动 中 ， 并 最 终 使 得 美国 国会 在 1991 年 通过 了 名 
为 “高 性 能 计算 和 通信 ”( High-Performance Computing and Communications, HPCC) 的 
行动 计划 ， 该 计划 旨 在 探索 采用 计算 方法 解决 科学 和 工程 中 的 重大 挑战 。 





图 1.5 Allen Newell ( 1927 一 1992， 左 图 )、Alan Perlis ( 1922 一 1990， 中 图 )、Herb Simon ( 1916 一 
2001, HA) 认为 计算 是 一 种 关于 计算 机 周边 各 种 现象 的 科学 。1967 年 ， 他 们 认为 ， 计 
算 机 科学 是 研究 计算 相关 事物 的 一 种 必 备 科学 ， 涉 及 计算 机 器 、 软 件 、 智 能 、 信 息 、 系 统 
设计 、 图 形 、 解 决 实际 问 题 的 算法 等 众多 方面 。Simon 则 进一步 认为 ， 人 工科 学 ( 即 研究 
人 造 制品 周边 现象 的 科学 ) 如 同 传统 科学 一 样 ， 也 是 一 种 科学 (来源 : Wikipedia Creative 
Commons ) 

目前 ， 人 们 看 起 来 已 经 形成 了 这 样 一 种 共识 : 计算 是 一 种 典型 的 科学 和 工程 ; 而 且 ， 
无 论 是 科学 还 是 工程 自身 ， 都 不 能 有 效 刻 画 计 算 。 那 么 ， 如 何 刻画 计算 ， 计 算 的 范 型 是 
什么 ? 

从 一 开始 ， 这 个 领域 的 领导 者 就 一 直 被 范 型 问题 所 困扰 。 从 发 展 历程 来 看 ， 目 前 已 
经 出 现 了 试图 统一 各 种 不 同 视 角 的 三 次 浪潮 。 第 一 次 浪潮 ， 由 Newell, Perlis, Simon 三 
A (1967) 领导 ， 认 为 计算 不 同 于 所 有 其 他 科学 领域 ， 原 因 在 于 计算 的 研究 对 象 是 信息 
处 理 过 程 。Simon 将 计算 称 为 人 工科 学 (1969 )， 其 背后 所 基于 的 一 个 共识 性 观念 是 ， 计 
算 不 是 一 种 自然 过 程 。 这 一 波浪 潮 的 流行 语 是 :“ 计 算 研 究 计算 机 周边 的 各 种 现象 。” 

第 二 次 浪潮 关注 于 程序 设计 ， 即 如 何 进行 算法 设计 ， 从 而 产生 有 用 的 信息 处 理 过 程 。 
在 20 世纪 70 年代 早 期 ， 两 位 计算 领域 的 先驱 者 Edsger Dijkstra 和 Donald Knuth 就 强烈 
主张 将 算法 分 析 作 为 计算 的 统一 范 型 。 这 一 波浪 潮 的 流行 语 是 :“ 计 算 机 科学 就 是 程序 设 
计 。” 这 种 观点 近来 已 经 逐渐 落 没 ， 因 为 这 个 领域 的 发 展 已 经 远 远 超过 程序 设计 的 范畴 ， 
同时 也 因为 公众 对 于 “程序 员 ” 这 一 概念 的 理解 变 得 过 于 狭隘 (仅仅 是 一 个 编写 程序 源 代 
人 码 的 人 )。 
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图 1.6 Donald Knuth ( 1938 一 今 ， 左 图 ) 和 Edsger Dijkstra ( 1930 一 2002， 右 图 ) 认为 程序 设计 是 
计算 的 核心 。1970 年 左右 ， 他 们 认为 算法 的 设计 与 分 析 过 程 应 该 是 计算 机 科学 的 核心 关注 
点 。 对 他 们 而 言 ， 一 个 程序 设计 专家 就 是 一 个 计算 机 科学 家 。 不 幸 的 是 ， 这 种 重要 的 观点 
在 20 世纪 90 年 代 后 期 不 复 存 在 ， 因 为 程序 设计 人 员 被 官方 定义 为 低层 次 的 源 代码 编写 者 
(来 源 : Wikipedia Creative Commons ) 





图 1.7 计算 机 系统 领域 的 先驱 Bruce Arden (1927 一 今 , 左 图 )， 在 COSERS 项 目 中 形成 了 “计算 不 
仅仅 是 程序 设计 ”的 观点 。 在 20 世纪 70 年 代 未 ， 他 领导 的 团队 将 计算 领域 定义 为 一 个 对 “ 什 
么 可 以 被 自动 化 ”进行 研究 的 领域 。 在 当时 ， 这 种 观点 非常 迎合 公众 对 于 机 器 人 (如 右 图 中 出 
现在 电影 《星球 大 战 》 中 的 两 个 机 器 人 ) 的 好 感 。 但 这 种 观点 并 没有 生存 太 长 时 间 ， 因 为 在 短 
短 几 年 之 后 人 们 对 科学 的 理解 发 生 了 重大 的 变化 (来 源 : Wikipedia Creative Commons) 


第 三 次 浪潮 则 源 于 由 Bruce Arden (1983 ) 所 领导 的 项 目 : Computer Science and 
Engineering Research Study (COSERS)。 这 是 一 个 由 美国 国家 科学 基金 在 20 世纪 70 年 代 
资助 的 项 目 。 该 项 目 将 计算 定义 为 : 对 工程 、 科 学 和 各 种 业务 领域 中 的 信息 处 理 过 程 的 自 
动 化 。 这 一 波浪 潮 的 流行 语 是 :“ 计 算 就 是 信息 处 理 过 程 的 自动 化 。” 虽 然 该 项 目的 结 题 报 
告 对 很 多 深奥 难 懂 的 研究 问题 进行 了 浅显 易 懂 的 解释 ， 但 其 核心 观点 并 没有 在 大 众 中 得 到 
广泛 传播 。 








图 1.8 Tim Berners-Lee( 1955 一 今 ) 展示 了 一 种 不 同 于 普遍 将 计算 理解 为 “由 一 组 机 器 构成 的 网 络 - 
的 视角 。1989 年 ， 他 发 明了 万 维 网 (World Wide Web): 在 万 维 网 上 ， 存 储 于 机 器 中 的 信息 
之 间 相 互 链 接 ， 并 且 可 以 随 着 鼠标 的 点 击 从 信息 链 的 一 端 移动 到 另 一 端 。 他 认为 这 种 由 信 
息 链 接 形成 的 网 络 中 蕴含 了 大 量 的 新 型 计算 行为 ,使 得 人 们 能 够 为 信息 赋予 更 多 的 含义 (来 
源 : Wikipedia Creative Commons) 
这 三 次 浪潮 所 具有 的 一 个 共同 特点 是 将 计算 机 作为 核心 关注 点 。 始 于 20 世纪 80 年 
代 的 计算 科学 运动 则 不 再 具有 这 样 的 特点 : 其 认为 ， 计 算 不 仅仅 是 科学 研究 的 工具 ， 而 更 
是 一 种 进行 科学 思考 和 科学 发 现 的 新 新 方法 。 计 算 科学 的 拥护 者 将 计算 视 为 帮助 他 们 理解 
信息 处 理 过 程 和 算法 控制 能 力 的 得 力 伙伴 。 
这 种 新 视角 的 一 个 重要 结果 是 : 科学 家 开始 意识 到 在 自然 界 中 也 存在 信息 处 理 过 
程 ， 并 且 也 可 以 采用 由 基于 计算 机 的 人 工 信 息 处 理 所 发 展 出 来 的 方法 对 其 进行 研究 。 生 
物 学 是 其 中 的 一 个 典型 代表 : 作为 对 认 知 科学 家 Douglas Hofstadter ( 1985 ) 观点 的 一 
种 呼应 ， 诺 贝尔 奖 获得 者 David Baltimore (2001) 认为 ， 生 物 学 已 经 变 为 一 种 信息 科 
学 。David Bacon (2010) 认为 物理 学 也 正在 发 生 类 似 的 变化 : 作为 量子 计算 的 支撑 理 
论 ， 量 子 力学 也 是 一 种 信息 科学 。Erol Gelenbe (2011 ) 列举 出 了 一 长 串 的 科学 领域 ， 
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其 主要 研究 对 象 都 涉及 自然 界 的 信息 处 理 。 计 算 机 科学 的 方法 同样 适用 于 自然 界 的 信息 
处 理 。 这 一 结论 进一步 巩固 和 强化 了 Herb Simon ( 1969 )“ 计 算 机 科学 的 确 是 科学 ”的 
观点 。 

it, Paul Rosenbloom (2012) 注意 到 了 另外 两 点 原因 ， 使 得 “所 有 的 计算 都 是 人 
工 过 程 ” 的 观点 变 得 愈 发 陈旧 。 第 一 ， 许 多 科学 家 开始 认同 ， 人 也 是 全 球 生 态 系统 的 一 部 
分 ， 因 此 ， 人 工 制品 也 如 同 河 狸 筑 造 的 水 坝 或 蚂蚁 构造 的 梨 穴 一 样 自然 。 第 二 ， 人 类 能 够 
在 任意 粒度 层次 上 修改 自然 过 程 的 能 力 ， 极 大 地 模糊 了 自然 和 人 工 的 边界 ， 例 如 干细胞 克 
隆 咒 官 、 有 机 生长 的 纳米 机 器 以 及 转基因 农作物 等 。 





图 1.9 两 位 诺 贝 尔 奖 获得 者 ， 物 理学 家 Ken Wilson (1936 一 2013， 左 图 ) 和 生物 学 家 David 
Baltimore ( 1938 一 今 ， 右 图 ) 站 在 了 计算 科学 的 前 沿 : 他 们 认为 计算 是 一 种 进行 科学 思考 
和 科学 发 现 的 办 新 方法 。20 世纪 80 年 代 中 期 ，Wilson 指出 科学 中 的 一 些 重 大 挑战 问题 可 
以 通过 计算 得 到 解决 ， 并 认为 应 当 使 用 具有 高 度 并 行 性 的 超级 计算 机 来 进行 这 些 计 算 。20 
世纪 90 年 代 ，Baltimore 指出 ， 生 物 学 已 经 变 成 对 细胞 和 所 有 生命 过 程 中 所 蕴涵 的 信息 处 
理 过 程 进行 研究 的 一 门 学 科 。 计 算 机 科学 家 一 开始 并 不 愿意 参与 其 中 ， 但 却 对 计算 科学 表 
达 了 坚定 的 拥护 ， 从 而 导致 了 计算 领域 中 的 一 场 科 学 复兴 运动 (来源: Wikipedia Creative 


Commons) 


计算 的 重要 原理 

对 计算 这 一 概念 的 理解 的 逐渐 成 熟 ， 使 得 我 们 能 不 断 从 新 的 视角 去 确定 计算 领域 
的 内 涵 。 直 到 20 世纪 90 年 代 ， 计 算 领 域 中 绝 大 多 数 的 科学 家 对 该 领域 的 理解 都 会 落 
实 到 其 所 包含 的 一 组 核心 技术 上 ， 例 如 算法 、 数 据 结构 、 数 字 化 方法 、 编 程 语言 、 操 
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作 系 统 、 网 络 、 数 据 库 、 图 形 图 像 、 人 工 智 能 、 软 件 工程 等 。 这 是 对 计算 领域 的 一 种 
深刻 的 技术 型 解释 。 本 书 对 计算 的 理解 则 更 加 关注 这 些 技术 的 能 力 和 局 限 背 后 所 隐藏 
的 基本 原理 。 

本 书 所 给 出 的 计算 基本 原理 划分 为 6 类 : 通信 (communication)、 计 算 (computation), 
协作 (coordination), id tZ (存储 ) (recollection)、 评 估 (evaluation)、 设 计 ( design) 
(Denning 2003, Denning and Martell 2004 )“( 见 图 1.10). 3% 6 类 基本 原理 都 关注 如 何 通 
过 操纵 物质 和 能 量 来 实现 所 期 望 的 计算 。 表 1.1 对 这 6 类 基本 原理 分 别 进行 了 简要 描述 ， 
并 给 出 了 与 之 对 应 的 篇 章 。 


R11 计算 的 重要 原理 


有 ET 


人 
信息 在 不 同位 置 之 间 的 可 | ”最 小 长 度 代码 ， 错 误 修复 代码 ， 文 件 压缩 ， 加 密 / 
靠 传输 解密 
可 计算 性 问题 计算 复杂 性 的 分 类 ， 不 可 计算 问题 的 特点 


所 有 的 存储 系统 具有 层级 结构 。 没 有 任何 一 个 存储 
系统 能 够 实现 对 不 同 存储 信息 的 等 时 访问 。 局 部 性 原 
理 : 所 有 的 计算 都 会 密集 访问 所 依赖 数据 集中 的 一 个 
子 集 


有 效 地 利用 多 个 自主 的 计 | 使 得 所 有 参与 者 具有 相同 知识 的 协议 ， 能 够 消除 不 
算 实 体 确定 性 结果 的 协议 ， 或 同步 协议 。 选 择 不 确定 性 原理 
度量 系统 是 否 表现 出 预期 | 采用 排队 网 络 模 型 预测 系统 的 吞吐 量 和 响应 时 间 。 
的 计算 行为 设计 实验 来 测试 算法 和 系统 
通过 特定 结构 的 软件 系统 | 复杂 系统 可 以 被 分 解 为 一 组 交互 的 模块 和 虚拟 机 。 
实现 可 靠 性 模块 之 间 可 以 形成 层级 结构 
计算 的 内 涵 不 仅仅 是 一 种 基本 原理 或 是 在 此 基础 上 形成 的 一 些 核心 技术 。 计 算 的 内 
涵 还 和 各 种 实践 领域 紧密 相关 ( 见 图 1.11 ) 。 除 了 计算 基本 原理 的 知识 之 外 ， 计 算 领 域 
的 专业 人 员 还 需要 具备 4 种 核心 的 实践 能 力 : 程序 设计 、 系 统 思维 、 建 模 以 及 计算 思维 。 
实践 能 力 是 通过 长 期 的 经 验 积累 而 形成 一 种 技巧 。 实 践 者 的 技巧 可 以 被 分 为 如 下 几 类 : 
初学 者 (beginner)、 进 阶 初学 者 (advanced beginner)、 初 级 资质 者 (competent) HAT 
(proficient)、 专 家 (expert)。 例 如 ， 一 个 人 门 级 的 程序 员 可 能 会 主要 关注 语法 和 编译 问 
题 以 及 bug 的 查找 问题 ; 一 个 专家 级 的 程序 员 则 能 够 构建 大 型 的 软件 系统 ， 解 决 复杂 的 
系统 问题 ， 或 对 下 级 程序 员 进 行 指导 。 基 本 原理 和 实践 相互 交织 在 一 起 。 人 们 通过 体现 
出 高 超 技巧 的 行动 将 基本 原理 应 用 于 实践 中 ， 而 新 的 基本 原理 又 会 从 大 量 的 实践 中 逐渐 
浮现 出 来 。 










核心 章节 







记忆 信息 的 表示 、 存 放 与 读 取 
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图 1.10 


图 1.11 


通信 


设计 计算 


评估 记忆 


协作 

每 一 类 基本 原理 反映 了 对 计算 的 一 种 视角 ， 即 观察 计算 领域 知识 空间 的 一 扇 窗口 。( 对 这 
6 类 基本 原理 的 排列 顺序 并 不 反映 它们 之 间 的 相对 重要 性 。) 同时 ， 这 6 类 基本 原理 也 不 
是 完全 不 相交 的 。 例 如 ， 互 联网 既 可 以 从 通信 系统 的 角度 理解 ， 也 可 以 从 协作 系统 或 记忆 
系统 的 角度 理解 。 大 多 数 计算 技术 都 涉及 对 这 6 类 基本 原理 的 不 同 组 合 : 每 一 类 基本 原理 
在 这 种 组 合 中 具有 不 同 的 权重 ,但 每 一 类 基本 原理 都 确实 存在 。 这 些 基 本 原理 类 别 表现 了 
人 们 对 计算 的 某 种 认 知 视角 。 一 些 人 认为 计算 仅仅 就 是 计算 ， 其 他 人 则 认为 计算 是 数据 、 
网 络 化 的 协作 或 者 自动 化 系统 。 这 种 划分 框架 能 够 在 某 种 程度 上 扩展 人 们 对 计算 本 质 的 
认识 


计算 领域 


安全 、 人 工 智 能 、 云 、 数 据 分 析 、 交 通 网 络 、 
健康 护理 信息 技术 、 基 因 组 学 、 机 器 人 学 等 


核心 技术 


程序 设计 语言 、 网 络 、 操 作 系统 、 
人 机 交互 界面 、 软 件 等 





计算 领域 的 发 展 建立 在 基本 原理 和 实践 两 者 的 共同 作用 下 。 核 心 技术 是 被 实践 者 在 各 种 计 
算 领域 中 广泛 应 用 的 工具 。 本 书 主 要 关注 基本 原理 及 其 在 若干 关键 领域 的 使 用 ， 而 不 涉及 
核心 技术 及 其 在 实践 中 的 应 用 。 基 本 原理 或 者 是 一 种 机 理 一 一 定律 和 重复 出 现 的 事物 ,或 
者 是 一 种 设计 智慧 一 一 通过 不 断 的 积累 形成 的 关于 方法 可 行 性 的 知识 ， 从 而 使 得 构造 可 
信 、 可 靠 、 可 用 、 安 全 的 计算 系统 成 为 可 能 
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计算 的 技术 人 员 及 其 客户 形成 的 社区 称 为 计算 领域 。 现 实 中 存在 数量 众多 的 计算 领 
Wo ACM (the Association for Computing Machinery) 给 出 了 其 成 员 所 关注 的 至 少 42 种 
专业 领域 (Denning 2001，2011 )， 而 更 多 的 计算 领域 则 被 冠 名 以 “计算 应 用 ”(computing 
applications) 。 下 一 章 将 简要 介绍 目前 受到 高 度 关注 的 4 个 计算 领域 : 信息 安全 、 人 工 智 
能 、 云 计算 以 及 大 数据 。 

大 多 数 计 算 领 域 与 计算 之 外 的 其 他 领域 相关 。 在 一 篇 关于 计算 与 物理 学 、 生 命 科学 、 
社会 学 三 个 科学 领域 相互 关系 的 论文 中 ，Paul Rosenbloom 发 现 了 两 种 类 型 的 关系 : 实现 
(implementation) 和 影响 (influence) ( Rosenbloom 2004, Denning 和 Rosenbloom 2009, 
Rosenbloom 2012 )。 实 现 指 一 个 领域 中 的 事物 被 用 于 构造 男 一 个 领域 中 的 事物 。 影 响 指 
一 个 领域 中 的 事物 影响 了 男 一 个 领域 中 事物 的 行为 。 这 两 种 关系 可 以 是 单 向 或 双向 的 。 
Rosenbloom 通过 一 张 表 (K 1.2) 来 说 明 计算 与 物理 学 、 生 命 科 学 、 社 会 学 以 及 自身 之 间 
可 能 存在 的 丰富 关系 。 其 中 计算 与 其 自身 的 关系 是 因为 通过 不 同 计算 领域 之 间 的 交互 ， 计 
算 会 不 断 地 实现 或 影响 自身 。 


R12 计算 与 不 同 领域 之 间 的 交互 示例 

























机 械 机 器 人 、 人 类 的 | 基因 、 神 经 、 免 疫 系 
认 知 、 具 有 输入 和 输出 | 统 、DNA 转录 、 演 化 


的 游戏 计算 

a ee dl ee it 
密码 学 、3D 打印 SN Lg 

传感器 、 扫 描 仪 、 计 | 学 习 、 程 序 设计 、 用 户 | 眼睛、 手势、 表达、 

算 机 视觉 、 文 本 识别 ”| 建 模 、 授 权 、 语 音 理解 ”| 运动 追踪 、 生 物 传 感 器 | 安全 、 并 行 计算 

运动 、 制 造 、 操 纵 、| 屏幕、 打印机、 图 像 、| 生物 效应 、 触 觉 、 感 
开 环 控制 语音 生成 、 网 络 科 学 觉 沉浸 


机 器 人 、 闭 环 控制 人 机 交互 、 游 戏 脑 — 机 接口 










机 械 、 光 、 电 子 、 
量子 、 化 学 过 程 


编译 器 、 操 作 系 统 、 


计算 被 实现 模拟 器 、 抽 象 、 过 程 











建 模 、 模 拟 、 数 据 
计算 实现 







计算 被 影响 

















计算 影响 分 布 式 系统 、 网 格 





双向 影响 


计算 在 科学 中 的 位 置 

由 于 计算 对 科学 存在 广泛 的 影响 ， 且 所 有 其 他 科学 领域 都 不 直接 与 信息 相关 ， 所 以 
Rosenbloom 得 出 的 结论 是 计算 可 以 被 认为 是 一 种 全 新 的 科学 领域 。 

计算 领域 对 于 信息 处 理 的 独特 性 是 什么 ”信息 在 传统 上 指 的 是 那些 一 旦 被 传播 就 会 
产生 知识 增加 的 事实 。 信 息 是 一 个 古老 的 概念 ， 哲 学 、 数 学 、 商 业 、 人 文学 科 、 科 学 已 经 
对 信息 进行 了 几 个 世纪 的 研究 。 科 学 关注 于 发 现 事 实 ， 通 过 事实 形成 模型 ， 使 用 模型 做 出 
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预测 ， 并 将 有 效 的 预测 模型 转变 为 技术 。 科 学 家 则 将 所 有 学 习 到 的 东西 组 织 成 “科学 知识 
体系 " 。 显 然 ， 信 息 在 各 种 科学 领域 中 都 具有 非常 重要 的 角色 。 

与 其 他 科学 领域 与 信息 的 关系 相 比 ， 计 算 领 域 与 信息 的 关系 体现 出 两 个 显著 不 同 的 
特点 。 首 先 ， 计 算 领 域 强调 对 信息 的 变换 ， 而 不 仅仅 是 对 信息 的 发 现 、 分 类 、 存 储 或 通 
言 。 算 法 不 仅仅 读 取 具 有 特定 结构 的 信息 ， 还 会 进一步 修改 信息 的 结构 。 进 一 步 而 言 ， 人 
类 也 在 不 断 地 修改 信息 的 结构 (例如 在 互联 网 上 )， 只 不 过 我 们 还 不 知道 人 类 对 信息 进行 
变换 的 计算 模型 是 什么 。 纯 粹 的 解析 方法 并 不 能 帮助 我 们 理解 信息 结构 发 生变 化 的 动态 机 
理 。 实 验方 法 对 于 这 一 问题 也 缺乏 有 效 的 解决 方案 。 

第 二 ， 计 算 不 仅仅 是 描述 性 的 ， 而 更 是 生成 式 的 。 算 法 不 仅仅 描述 了 解决 一 个 问题 
的 方法 ， 也 会 使 得 一 台 计 算 机 去 真正 地 解决 这 个 问题 。 计 算 科 学 是 唯一 的 对 信息 与 活动 之 
间 的 因果 关系 如 此 强调 的 一 个 领域 。 其 他 科学 领域 对 信息 则 没有 这 样 的 视角 。 计 算 及 其 结 
果 对 各 个 科学 领域 产生 了 深远 的 影响 。 计 算 绝 不 仅仅 是 物理 学 、 生 命 科学 或 社会 学 的 一 个 
子 集 。 计 算 有 资格 成 为 一 个 独立 的 科学 领域 。 


本 书 的 关注 点 


计算 已 经 得 到 了 长 足 的 发 展 ， 覆 盖 了 非常 丰富 的 研究 内 容 ， 因 此 不 可 能 在 一 本 书 中 
对 计算 进行 一 个 完整 的 综述 。 有 三 本 书 可 以 被 认为 是 “计算 机 科学 百科 全 书 ”( Ralston 
2003, Abrams 2011, Henderson 2008 )， 这 三 本 书 的 厚度 分 别 是 2030 页 、770 页 和 580 W, 
这 些 书 通过 一 系列 的 文章 来 对 计算 进行 综述 。 在 本 书 中 ， 我 们 不 试图 对 计算 的 研究 内 容 给 
出 一 个 全 面 的 覆盖 ; 相反， 我 们 只 会 给 出 一 组 具有 代表 性 的 关于 计算 的 重要 原理 。 

这 些 代 表 性 的 重要 原理 被 划分 为 9 章 : 信息 、 机 器 、 程 序 设计 、 计 算 、 存 储 、 并 行 、 
排队 、 设 计 以 及 网 络 (第 3 ~ 11 章 )。 前 文 所 提 及 的 计算 的 6 个 领域 ， 每 一 个 领域 至 少 对 
应 一 章 ( 见 表 1.1 )。 我 们 期 望 本 书 的 内 容 能 够 提供 一 种 具有 一 定 广度 和 深度 的 系统 性 视 
角 ， 去 理解 计算 所 包含 的 不 同 内 容 。 

第 1 章 主 要 介绍 计算 的 发 展 历史 和 基本 结构 ， 以 及 计算 与 其 他 领域 的 关系 。 第 2 章 
主要 介绍 计算 的 不 同 子 领域 如 何 从 计算 的 基本 原理 中 汲取 知识 ， 信 息 安全 、 人 工 智 能 、 云 
计算 以 及 大 数据 是 典型 代表 。 

第 3 章 关注 信息 的 本 质 ， 在 信息 之 上 计算 机 所 能 展现 出 的 能 力 ， 以 及 计算 机 如 何 向 
其 用 户 提供 有 意义 的 信息 。 第 4 章 探 讨 计算 机 的 构造 技术 ,使 得 编写 的 程序 能 够 控制 电子 
线路 去 执行 人 类 期 望 的 计算 。 第 5 章 关注 程序 设计 ， 针 对 特定 的 问题 设计 相应 的 计算 解决 
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方案 的 技巧 ， 以 及 如 何 将 程序 转换 为 等 价 的 机 器 代码 。 

第 6 章 关注 计算 自身 : 一 些 问 题 能 被 快速 算法 求解 ， 一 些 问 题 能 被 速度 较 慢 的 算法 
求解 ， 而 还 有 一 些 问 题 根本 无 法 被 计算 机 求解 。 第 7 章 关注 存储 ， 即 如 何 实现 有 效 地 信息 
存储 与 读 取 。 

第 8 章 探 讨 并行 : 通过 一 组 相互 协作 的 计算 机 并 行 工作 ， 提 高 问题 求解 的 速度 。 第 9 

O7) 章 关注 队列 : 在 服务 器 集群 为 大 规模 并 发 请 求 提 供 服务 时 ， 一 种 预测 系统 吞吐 量 和 响应 时 
间 的 方法 。 

第 10 章 关注 设计 : 如 何 规划 和 组 织 可 靠 、 可 用 、 安 全 的 计算 系统 。 第 11 章 以 互联 网 
为 实例 展示 如 何 利用 各 种 基本 原理 构造 一 个 可 靠 的 大 规模 数据 通信 网 络 。 

本 书 的 最 后 附 上 了 参考 文献 目录 ， 其 中 包含 了 一 些 给 我 们 带 来 启发 的 代表 性 文献 (不 
是 对 历史 文献 的 完整 性 总 结 )。 如 果 你 在 本 书 中 发 现 了 一 个 人 名 ， 那 么 你 会 在 参考 文献 目 
录 中 至 少 发 现 一 篇 以 此 人 为 作者 的 文献 。 


总 结 


计算 正在 变 得 愈 发 成 熟 ， 展 示 出 其 在 科学 、 工 程 和 数学 等 方面 的 优 恨 特性 。 计 算 
的 科学 本 质 对 于 该 领域 的 发 展 具有 至 关 重 要 的 作用 : 很 多 系统 过 于 复杂 以 至 于 只 能 借助 
于 试验 方法 对 其 进行 研究 。 计 算 的 覆盖 范围 相当 广泛 ， 包 括 各 种 自然 或 人 工 的 信息 处 理 
过 程 。 

本 书 揭示 了 所 有 计算 过 程 所 基于 的 一 组 基本 原理 。 这 些 基 本 原理 为 众多 计算 领域 以 
及 物理 学 、 生 命 科学 以 及 社会 学 中 的 众多 子 领 域 提供 了 理论 基础 。 

计算 不 是 物理 学 、 生 命 科 学 或 社会 学 的 一 个 子 集 。 这 些 科学 领域 并 不 关注 信息 处 理 
与 变换 的 本 质 是 什么 。 这 种 关注 在 所 有 其 他 科学 领域 中 都 不 具有 基础 性 地 人 位。 因此， 计算 
有 资格 成 为 一 个 独立 且 重 要 的 科学 领域 。 


致谢 
本 章 改 编 自 “Great Principles of Computing” (Peter J. Denning, American Scientist 98 
( Sep-Oct 2010), 369-372). His K#7E K Best Writings on Mathematics 2010) ( Mircea 
Pitici, Princeton University Press (2011 ) ) 。 本 章 内 容 的 使 用 得 到 了 《美国 科学 家 》 杂 志 
118] 的 授权 。 


| 第 2 章 


Great Principles of Computing 


计算 领域 





生物 学 是 一 种 信息 科学 。 

——David Baltimore 
除了 理论 和 实验 之 外 ， 计 算是 进行 科学 研究 的 第 三 种 方式 。 

—Kenneth Wilson 


科学 与 科学 应 用 密 不 可 分 ， 如 同一 个 树 上 结 出 的 多 枚 果实 。 





Louis Pasteur 


计算 活动 由 人 类 实施 ， 而 不 是 基本 原理 。 在 长 期 的 实践 活动 中 ， 人 们 的 计算 活动 逐 
渐 形 成 了 丰富 多 样 的 计算 领域 (computing domain)。 每 一 个 计算 领域 主要 关注 一 项 技术 
或 其 应 用 。 例 如 ， 信 息 安 全 领域 主要 关注 信息 安全 技术 ， 而 隐私 领域 则 主要 关注 如 何 应 
用 信息 安全 技术 来 保护 个 人 的 隐私 信息 。 这 些 领域 中 的 实践 者 分 享 相似 的 问题 、 技 巧 、 方 
法 ， 享 受 计算 的 基本 原理 带 给 他 们 的 权利 ， 同 时 也 受到 这 些 原理 的 限制 。 本 书 所 阐述 的 计 
算 的 重要 原理 不 可 能 脱离 这 些 计算 领域 而 独立 存在 (Rosenbloom 2012 )( 见 图 2.1). 

空气 动力 学 数字 仿真 是 计算 领域 的 一 个 实例 。 为 了 更 有 效 地 设计 飞机 ， 计 算 机 科学 
家 和 航空 领域 的 专家 进行 了 长 期 的 协同 工作 。 自 20 世纪 80 年 代 以 来 ， 飞 机 制造 公司 开 
始 使 用 数字 仿真 技术 来 设计 机 愤 和 机 身 。 传 统 方法 通过 风 洞 和 样机 进行 机 辟 和 机 身 的 设 
计 ， 对 于 大 尺寸 复杂 飞机 的 设计 已 经 不 具有 可 行 性 。 通 过 运行 在 大 规模 并 行 超级 计算 机 上 
的 新 型 算法 ,工程师 已 经 可 以 在 不 经 过 风 洞 试验 的 情况 下 设计 出 可 以 安全 飞行 的 飞机 。 波 
音 777 是 第 一 种 完全 通过 数字 化 设计 产生 的 飞机 。 航 空 专家 和 计算 机 专家 紧密 合作 ， 产 
生 了 一 个 新 的 科学 领域 一 一 计算 流体 力学 ， 来 计算 气流 的 复杂 运动 。 他 们 基于 3D 网 格 设 
计 出 相应 的 计算 方法 来 求解 机 身 周围 空气 的 流体 力学 方程 。 他 们 探索 出 一 种 快速 多 重 网 
格 算 法 ， 能 够 基于 超 立方 体 并 行 处 理 器 网 络 在 很 短 的 时 间 内 完成 大 尺寸 机 身 的 设计 工作 
(Chan and Saad 1986, Denning 1987 ) 。 他 们 还 设计 了 动态 网 格 精 化 方法 ,来 提高 气压 和 
流速 变化 剧烈 区 域 的 计算 精度 。 其 中 的 有 些 方法 甚至 体现 出 了 全 新 的 计算 基本 原理 。 基 于 
这 些 进 展 ， 计 算 方 法 已 经 成 为 流体 力学 不 可 缺少 的 构成 成 分 。 
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记忆 
图 2.1 图 中 底部 所 示 的 6 种 类 型 的 计算 原理 都 关注 于 通过 管理 物质 和 能 量 来 产生 预期 的 计算 行为 。 
而 图 中 上 部 的 计算 领域 则 是 实践 领域 。 这 些 实践 领域 中 的 人 们 通过 灵活 应 用 计算 的 基本 原 
理 来 求解 他 们 遇 到 的 各 种 问题 〈 带 箭头 的 虚线 )。 这 些 实践 领域 中 的 工作 为 计算 也 为 自身 探 
索 出 新 的 基本 原理 
目前 已 经 发 展 了 丰富 多 样 的 计算 领域 。ACM (Association for Computing Machinery ) 
总 结 出 其 成 员 所 关注 的 42 种 计算 领域 ， 以 及 数 十 种 的 相关 的 领域 (Denning and Frailey 
2011 )。 本 章 我 们 简单 介绍 一 下 4 种 计算 领域 : 信息 安全 、 人 工 智 能 、 云 计算 、 大 数据 。 
对 每 个 计算 领域 ， 我 们 重点 关注 4 个 方面 的 因素 : 
© 涉及 哪些 人 ; 
e 关注 什么 问题 ; 
e 涉及 哪些 计算 基本 原理 ; 
e 如 何 为 计算 和 所 在 领域 带 来 新 的 基本 原理 。 
这 种 分 析 有 可 能 揭示 一 些 新 的 基本 原理 ， 并 帮助 实践 者 理解 计算 能 够 给 他 们 带 来 的 
利益 和 限制 ， 也 有 可 能 帮助 探索 不 同 技术 之 间 的 联系 ， 从 而 为 未 来 的 创新 埋 下 伏笔 。 
在 深入 这 些 计算 领域 之 前 ,我 们 应 该 进一步 加 深 对 计算 领域 与 计算 基本 原理 两 者 之 
间 关 系 的 理解 。 这 种 理解 能 够 帮助 我 们 更 好 地 分 析 这 些 领域 。 


领域 和 基本 原理 


有 两 种 基本 策略 来 表示 特定 学 科 的 知识 体系 。 一 种 策略 罗列 出 该 学 科 包 含 的 所 有 和 领 
域 ， 另 一 种 策略 则 罗列 出 所 有 的 基本 原理 。 对 同一 知识 空间 的 不 同 表 示 会 对 实践 活动 产生 
不 同 的 指导 意义 。 在 本 章 中 ， 我们 使 用 “领域 "(domain) 来 表示 技术 领域 ， 即 关注 特定 技 
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术 的 领域 。 [21 | 

教育 者 通常 使 用 “知识 体系 ”( BOK) 一 词 来 表示 对 特定 学 科 知识 的 系统 化 描述 ， 并 
且 基 于 知识 体系 来 设计 相应 的 课程 体系 。ACM 在 1968 年 给 出 了 关于 计算 的 第 一 个 知识 
(KA, 并 在 1989 年 、2001 年 和 2013 年 进行 了 更 新 。1989 年 版 本 包含 了 计算 的 9 个 核心 
领域 ( Denning et al. 1989 ), 2001 版 本 包含 了 14 个 (ACM Education Board 2001 ), 2013 
版 本 则 进一步 扩充 到 18 个 (ACM Education Board 2013 )。 之 所 以 将 这 些 子 领域 称 为 核心 
领域 ， 是 因为 这 些 领 域 都 或 多 或 少 为 其 他 领域 提供 了 基础 技术 支持 。 

基本 原理 框架 (如 本 书 所 给 出 的 计算 基本 原理 框架 ) 与 面向 应 用 领域 的 框架 是 正 交 
的 。 一 条 基本 原理 可 能 会 出 现在 多 个 领域 中 ， 而 一 个 领域 可 能 会 依赖 于 多 条 基本 原理 。 这 
些 被 领域 所 依赖 的 基本 原理 ， 其 演化 速度 远 低 于 技术 的 演化 速度 。 

虽然 这 两 种 风格 的 框架 具有 很 大 的 差异 性 ， 但 它们 也 存在 紧密 的 关联 。 为 了 更 形象 
地 感受 到 这 种 紧密 关联 ， 我 们 可 以 想象 这 样 一 个 二 维 矩 阵 : 每 一 行 代表 一 个 领域 ， 每 一 列 
代表 一 类 基本 原理 ， 所 有 的 单元 格 则 代表 了 特定 方面 的 知识 空间 ( 见 图 2.2 ) 。 


基本 原理 分 类 





图 2.2 ”关于 计算 的 知识 空间 可 以 被 表示 为 一 个 矩阵 : 其 中 ， 列 代表 不 同类 型 的 基本 原理 ， 行 代表 
不 同 的 领域 。 图 中 灰色 背景 的 单元 格 中 给 出 了 信息 安全 领域 使 用 到 的 两 个 协作 类 型 的 基本 
原理 : 密 钥 分 配 协议 (用 于 安全 地 分 配 密 钥 ) ， 零 知识 证 明 (用 于 在 两 个 参与 者 之 间 安 全 地 
交换 私密 信息 ) 


基于 这 种 和 矩阵， 我 们 可 以 说 : 面向 技术 的 知识 体系 是 对 该 矩阵 中 行 的 罗列 ， 而 面向 
基本 原理 的 知识 体系 则 是 对 矩阵 列 的 罗列 。 这 两 种 知识 体系 从 不 同 的 角度 对 相同 的 知识 进 
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行 了 阐述 。 

设想 一 个 人 试图 罗列 出 一 个 技术 涉及 的 所 有 基本 原理 。 这 个 人 可 以 从 基本 原理 的 6 
种 类 别 出 发 分 析出 该 技术 领域 涉及 的 所 有 基本 原理 ， 即 对 应 于 和 矩阵 中 的 一 行 ( 见 图 2.3 )。 
在 本 章 的 余下 部 分 ， 我们 将 用 这 种 方式 对 4 个 领域 涉及 的 基本 原理 进行 分 析 。 


记忆 评估 设计 


端 到 端 层 次 化 
保密 认证 加 密 算法 的 | 密 钥 分 配 协议 | ”约束 划分 











图 2.3 安全 领域 涉及 的 计算 基本 原理 在 矩阵 中 对 应 于 安全 领域 所 在 的 那 一 行 。 如 同 大 多 数 的 计算 
领域 一 样 ， 安 全 领域 涉及 的 计算 基本 原理 也 可 以 划分 为 六 种 类 型 


这 种 基本 原理 框架 也 指出 了 另外 一 种 分 析 方 法 : 一 个 人 可 以 罗列 出 涉及 特定 基本 原 
理 的 所 有 技术 〈 见 图 2.4 )。 


通信 








图 2.4 协作 技术 表现 为 矩阵 中 协作 所 在 的 那 一 列 。 在 几乎 所 有 的 计算 领域 中 (包括 列 出 的 6 种 计算 
领域 ) 都 会 涉及 协作 相关 的 基本 原理 
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信息 安全 


信息 安全 是 计算 机 科学 中 一 个 具有 悠久 历史 的 领域 。 甚 至 在 任务 批 处 理 大 行 其 道 的 
时 代 ， 用 户 就 开始 关注 存放 于 计算 机 中 的 数据 的 安全 问题 。 计 算 机 是 否 存放 在 一 个 物理 安 
全 的 地 方 ?在 一 个 新 的 任务 被 装载 前 ， 存 储 器 是 否 已 被 清空 ”操作 者 的 错误 或 硬件 失效 是 
否 会 导致 数据 的 丢失 ? 

1960 年 左右 ， 随 着 第 一 代 多 道 程 序 分 时 系统 的 出 现 ， 操 作 系 统 的 设计 者 就 已 经 对 信 
息 保 护 问题 有 了 深刻 的 实践 认 知 。 他 们 设计 出 各 种 方式 对 主 存储 器 进行 分 区 ， 从 而 保证 不 
同 程序 的 代码 和 数据 不 会 混淆 在 一 起 。 这 其 中 ， 虚 拟 存储 器 是 最 复杂 的 一 种 机 制 。 他 们 发 
明了 分 层 文件 系统 ， 使 得 用 户 可 以 真正 地 管理 他 们 的 文件 ， 并 设 定 其 他 用 户 对 这 些 文件 的 
访问 权限 。 他 们 发 明了 密码 系统 以 避免 未 经 授权 的 用 户 使 用 计算 机 。 他 们 构造 了 多 种 结 
构 ， 以 避免 特洛伊 木马 或 其 他 恶意 软件 对 系统 和 数据 的 干扰 和 破坏 。 他 们 发 明了 多 种 访问 
控制 机 制 ， 使 得 机 密 信息 无 法 写 人 公共 文件 中 。 他 们 创建 了 针对 计算 机 操作 者 的 各 种 操作 
策略 ， 以 保护 数据 和 防范 入 侵 。 自 1970 年 以 来 ， 人 们 已 经 广泛 认识 到 ， 保 证 信息 的 安全 
是 操作 系统 设计 者 一 项 责无旁贷 的 任务 (Denning 1971, Saltzer and Schroeder 1975 ) 。 

20 世纪 70 年 代 的 ARPANET、80 年 代 的 Internet、90 年 代 的 万 维 网 (World Wide 
Web) 提供 了 一 种 世界 范围 的 信息 共享 网 络 ， 也 使 得 信息 的 丢失 或 偷盗 成 为 一 个 更 加 现实 
的 问题 。 密 码 系统 在 信息 安全 和 身份 验证 中 承担 了 核心 角色 (Denning 1982 )。 设 计 者 在 
实践 中 遇 到 并 应 对 各 种 问题 ， 比 如 : 数据 库 记 录 保 护 、 密 码 保护 、 基 于 生物 信息 的 用 户 
验证 、 反 人 侵 保护 、 入 侵 检测 、 病 毒 / 蠕虫 / 恶意 软件 的 防范 、 多 层 安全 系统 、 信 息 流 管 
理 、 匿 名 事务 、 信 任 分 级 准则 、 数 据 恢 复 等 。 法 律 实践 专家 开始 遇 到 越 来 越 多 的 针对 计 
算 机 系统 的 犯罪 行为 ， 并 开始 唤醒 每 个 人 对 个 人 信息 重要 性 的 认识 。 然 而 ， 很 少 有 人 认真 
ee ee ee 

。 他 们 认为 ， 等 到 信息 安全 问题 真正 出 现 后 再 亡羊补牢 ， 也 未 为 迟 也 。 这 种 观点 注定 是 
错误 的 。 大 量 可 被 轻易 人 侵 的 系统 出 现在 重要 的 业务 活动 中 ， 这 些 系统 缺乏 对 信息 保护 的 
系统 性 考虑 ， 因 而 对 各 种 (善意 、 恶 意 或 无 意 的 ) 操作 采取 了 宽松 容忍 的 策略 。 

随 着 越 来 越 多 的 金融 数据 、 人 事 数 据 、 个 人 隐私 数据 以 及 公司 数据 被 存储 在 可 在 线 
访问 的 计算 机 中 ， 对 这 些 数据 的 恶意 人 侵 行 为 出 现 了 极 大 地 增加 。 安 全 专家 已 经 开始 担忧 
信息 战争 的 可 能 性 (Denning 1998 )。 隐 私 专 家 则 向 公众 奋力 疾 呼 保护 个 人 隐私 数据 的 重 
要 性 ， 这 关系 到 我 们 每 个 人 的 基本 自由 (Garfinkel 2001 )。 在 1999 年 ， 公 众 开始 普遍 担 
心 “千年 虫 ” 问 题 有 可 能 导致 网 络 的 崩溃 ， 这 个 问题 产生 的 原因 是 在 计算 机 中 一 个 年 份 数 
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据 被 存储 为 两 位 而 不 是 四 位 十 进 制 数 。 自 此 以 后 ， 人 们 开始 关注 到 信息 网 络 的 脆弱 性 问题 
以 及 保证 信息 安全 的 重大 挑战 。 多 国 专 家 开始 忧虑 大 规模 的 信息 攻击 行为 有 可 能 导致 世界 
经 济 甚 至 人 类 文明 的 毁灭 (Schneier 2004, 2008, Clark 2012 ) 。 

表 2.1 给 出 了 信息 安全 领域 涉及 的 人 、 问 题 以 及 计算 基本 原理 。 


表 2.1 安全 领域 


操作 系统 设计 者 ， 网 络 工程 师 ， 网 络 操作 者 ， 防 御 者 ， 执 法 者 ， 
取证 调查 者 ， 国 土 安全 人 员 ， 公 共 政 策 官员 ， 外 交 官 ， 隐 私 权 拥 


# 
it 


控制 共享 ， 存 储 保护 ,文件 保护 ， 访 问 控制 ， 信 息 流 ， 可 信 系 
故障 ， 问 题 ， 关 注 点 | 统 ， 加 密 通 信 ， 身 份 验证 ， 签 名 ， 秘 钥 分 配 ， 基 于 数据 关联 的 搞 


通信 密码 系统 ， 保 密 ， 身 份 验证 
i 单项 函数 ， 加 密 复杂 性 ， 哈 希 算 法 ， 形 式 化 验证 
记忆 访问 控制 ， 错 误 限 制 ， 信 息 流 ， 多 级 安全 存储 ， 引 用 监视 器 


一 
3 


at 
ay 
z 3 
@ 
+ 
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计算 基本 原理 秘 钥 分 配 ， 零 知识 证 明 ， 身 份 认证 协议 ， 签 名 协议 
性 能 和 吞吐 量 协议 ， 安 全 系统 准则 
开放 设计 ， 最 小 特权 ， 缺 省 故障 安全 ， 端 到 端 设 计 ， 层 次 化 功 
能 ， 虚 拟 机 
a 信息 安全 实践 ， 入 侵 检测 ， 生 物 特征 ， 取 证 规则 ， 基 于 统计 数 
的 基本 原理 据 库 的 推理 


人 工 智能 


让 机 器 可 以 执行 人 类 智力 活动 的 想法 可 以 追溯 到 5 个 世纪 之 前 。1642 年 ，Blaise 
Pascal 建造 了 一 人 台 机 械 式 计算 器 。1823 年 ，Charles Babbage 发 明了 差分 机 ， 用 于 自动 进 
行 算数 函数 的 计算 。 在 19 世纪 后 期 ， 一 个 名 为 “mechanical Turk” 的 自动 下 棋 机 器 人 ， 
在 受到 广泛 关注 后 最 终 被 发 现 只 是 一 个 恶作剧 (Standage 2003 )。 实 际 上 ， 很 多 这 些 类 似 
的 想法 都 可 以 被 看 作 人 工 智 能 的 萌芽 (Russell and Norvig 2010 )。 

1956 年 ， 在 Claude Shannon 和 Nathaniel Rochester 的 帮助 下 ，John McCarthy 在 德 
国 达 特 茅 斯 组 织 了 一 次 研讨 会 。 这 次 研讨 会 标志 着 人 工 智 能 领域 的 诞生 。 当 时 ， 研 究 者 
的 一 个 基本 观点 是 “原则 上 ， 人 类 智能 的 机 理 可 以 被 精确 地 描述 出 来 ， 因 此 ， 可 以 用 机 器 
来 仿真 人 类 智能 ” 。 这 种 观点 是 非常 合理 的 ， 因 为 很 多 人 类 智力 活动 似乎 就 是 在 执行 某 种 
算法 ， 而 且 人 的 大 脑 似 乎 就 是 一 个 可 以 执行 算法 的 电子 化 网 络 。Herbert Simon 预测 ， 到 
1967 年 计算 机 可 能 成 为 世界 象棋 冠军 ， 可 能 发 现 并 证 明 一 些 重要 的 数学 定理 ， 而 且 很 多 
心理 学 理论 可 以 体现 在 计算 机 程序 中 。 他 的 第 一 个 设想 比 预计 时 间 迟 到 了 30 年 才 得 以 实 
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现 ， 而 剩 下 的 两 个 设想 目前 仍然 没有 实现 。 

图 灵 (1950) 为 现代 人 工 智能 留 下 了 很 多 火种 : 图 灵 测 试 、 机 器 学 习 以 及 通过 “成 
长 ”形成 一 台 智能 机 器 。 图 灵 意 识 到 ， 由 于 对 “智能 ”一 词 人 们 始终 缺少 一 个 足够 明确 的 
定义 ， 以 至 于 无 法 有 效 衡 量 一 台 机 器 是 否 有 智能 或 具有 何 种 程度 的 智能 。 他 提出 的 模拟 游 
R ( 即 图 灵 测 试 ) 不 再 关注 一 台 机 器 是 否 有 智能 ， 转 而 关注 一 台 机 器 是 否 表 现 出 智能 的 行 
为 。 他 预测 ， 到 2000 年 ， 机 器 至 少 能 够 让 70% 的 人 类 评审 者 在 5 分 钟 的 时 间 内 无 法 判断 
与 之 交谈 的 是 一 台 机 器 还 是 一 个 人 类 。 这 个 设想 到 目前 还 没有 实现 。 

图 灵 关 于 智能 的 行为 观点 在 人 工 智 能 领域 的 形成 中 起 到 了 重要 作用 。 然 而 ， 到 20 世 
纪 70 年 代 ， 这 种 观点 受到 了 人 尖锐 的 批判 。 很 多 人 工 智 能 项 目 开始 以 设计 “专家 系统 ”为 
目标 ， 即 : 构造 出 与 某 些 领域 (如 医学 诊断 领域 ) 的 人 类 专家 具有 相同 能 力 的 智能 系统 。 
Hubert Dreyfus (1972, 1992) 则 坚持 认为 ， 专 家 的 行为 绝 不 是 基于 规则 的 机 器 所 能 完全 
模拟 的 。 当 时 ， 人 们 对 这 种 观点 喻 之 以 鼻 ， 但 时 间 证 明了 这 种 观点 的 正确 性 。 只 有 非常 少 
的 专家 系统 表现 出 一 定 的 实用 价值 ， 但 没有 一 个 专家 系统 能 够 达到 人 类 专家 的 水 平 。John 
Searle (1984) 则 认为 传统 机 器 具有 智能 是 不 可 能 的 : 一 个 基于 规则 的 机 器 可 能 可 以 使 用 
中 文 与 人 对 话 ， 但 机 器 根本 不 知道 这 些 中 文 的 含义 。 他 不 认同 “强人 工 智 能 ”的 概念 〈 即 
机 器 行为 能 产生 意识 )， 而 更 偏向 于 “ 弱 人 工 智能 ”( 即 机 器 能 够 模仿 出 人 类 的 行为 ， 但 
这 种 模仿 背后 的 机 制 可 能 与 人 类 大 脑 的 工作 机 制 没有 任何 相似 之 处 )。Terry Winograd 和 
Fernando Flores (1987 ) 认为 人 工 智能 基于 某 些 人 类 的 哲学 假设 ， 而 这 些 假设 可 能 根本 无 
法 解释 智能 的 工作 机 理 或 根本 无 法 导致 智能 的 产生 。 

到 20 世纪 80 年 代 中 期 ， 人 们 逐渐 意识 到 关于 人 工 智能 的 很 多 初始 设想 很 难 在 短 时 
间 内 实现 。 提 供 研究 基金 的 机 构 开 始 停止 向 人 工 智 能 领域 提供 新 的 资金 支持 并 且 要 求 已 有 
研究 项 目 提供 更 为 确实 的 研究 成 果 。 缺 少 资金 的 支持 ， 很 多 研究 者 无 法 展开 具体 的 研究 工 
作 ， 转 而 开始 认真 反思 这 个 领域 面临 的 问题 。 人 工 智能 领域 的 先驱 者 Raj Reddy 将 这 一 黑 
暗 时 期 称 为 “人 工 智 能 的 冬天 ”。 

这 一 时 期 的 反思 酝酿 了 人 工 智 能 研究 的 一 个 新 方向 。 人 们 不 再 关注 如 何 对 人 类 意识 
活动 进行 建 模 ， 转 而 去 寻求 构造 一 些 能 够 替代 人 类 认 知 活动 的 智能 系统 。 自 动 认 知 系统 的 
工作 原理 不 需要 与 人 类 意识 活动 的 原理 相 一 致 。 它 们 甚至 根本 不 去 刻意 模仿 人 类 解决 问题 
的 过 程 。 这 一 新 方向 更 强调 通过 实验 来 确认 所 提出 的 自动 化 工作 原理 是 否 有 用 、 可 靠 和 
安全 (Russell and Norvig 2010, Nilsson 2010 )。 这 一 新 方向 最 近 引 起 公众 广泛 关注 的 进 
展 包括 : 1997 年 IBM 深蓝 国际 象棋 程序 击败 国际 象棋 世界 冠军 Garry Kasparov, 2010 年 
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Google 的 无 人 驾驶 汽车 ，2011 年 IBM 的 Watson 计算 机 在 益 智 问答 游戏 节目 “危险 边缘 ” 
中 获得 冠军 (击败 人 类 对 手 )。 这 些 计 算 机 程序 中 使 用 到 的 方法 具有 极 高 的 效率 ， 但 却 没 
有 刻意 模仿 人 类 思考 或 大 脑 运作 的 机 制 。 同 时 ， 这 些 方法 仅 对 解决 特定 的 问题 有 效 ， 而 不 
具有 通用 性 。 

计算 机 科学 、 认 知 科学 、 医 学 及 心理 学 领域 的 很 多 研究 者 仍然 在 研究 人 脑 的 工作 机 
理 和 意识 的 产生 机 理 。Kurzweil 的 畅销 书 《 奇 点 临近 》( Kurzweil 2005 ) 和 2013 年 对 外 
公布 的 研究 项 目 Brain Activity Map Project 表明 ， 这 个 研究 方向 仍然 具有 非常 强大 的 吸 
Flo 

ATS FE EE Bs TBA, AME ER. EAA E 
赛 过 程 中 ，Erik Brynjolfsson 和 Andrew McAfee (2012) 发 现 ， 自 动 化 的 浪潮 正 逐 渐 取 代 
人 类 在 知识 相关 领域 的 工作 ， 正 如 在 上 个 世纪 中 机 械 自动 化 取代 了 大 量 的 人 类 体力 劳动 。 
知识 自动 化 的 实例 包括 : 电话 转 接 中 心 、 语 音 菜 单 系统 、 在 线 商 品 交易 、 在 线 银行 、 政 府 
服务 、 出 版 、 新 闻 传播 、 音 乐 发 布 、 广 告 、 监 管 、 反 奴 等 方面 。 笔 者 所 担忧 的 是 我 们 正清 
向 一 个 不 需要 大 量 人 工 劳 动 的 社会 ， 而 这 个 社会 又 无 法 为 大 量 失业 的 人 类 个 体 提供 充足 的 
资源 。 

表 2.2 给 出 了 人 工 智能 领域 涉及 的 人 、 问 题 以 及 计算 基本 原理 。 
R22 ”人 工 智能 领域 

AI 专家 ，AI 实 践 者 ， 规 划 师 ， 下 棋 者 ， 贝 叶 斯 学 习 者 ， 机 器 学 
习 者 ,仿生 设计 师 ， 认 知 科学 家 ， 心 理学 家 ， 经 济 学 家 ， 执 法 者 ， 
机 器 人 专家 
认 知 任务 的 自动 化 ， 经 验 规则 的 设计 与 试验 评估 ， 演 化 计算 ， 遗 


故障 ， 问 题 ， 关 注 点 | 传 计算 ， 神 经 计算 ， 模 式 识 别 ， 自 动 分 类 ， 语 音 识 别 ， 自 然 语言 翻 
译 ， 人 造 脑 ， 超 人 类 智能 ， 自 治 系统 (无 人 驾驶 飞机 、 汽 车 等 ) 


= 

& 
H | 
a0 


通信 噪音 信道 模型 
经 验算 法 ,分 类 ， 贝 叶 斯 推理 ， 机 器 学 习 ， 大 状态 空间 搜索 ， 智 
计算 
计算 基本 原理 me 
+ i TEREN, MADRE, MAMA, ， 局 部 学 习 算 法 
训练 协议 ， 协 调理 论 
经 验 评估 的 实验 方法 ; 查 全 率 ， 查 准 率 ， 准 确 性 
监督 实验 和 无 监督 实验 中 大 数据 集 的 存储 
来 源 于 其 他 领域 RE TIM, ; : 
AEAN uR 意识 的 产生 机 理 ， 言 语 行为 理论 ， 语 言 学 ， 神 经 科学 ， 统 计 推 断 
云 计算 


云 计 算是 一 个 现代 的 时 比 概 念 ， 其 背后 隐藏 了 关于 信息 共享 和 分 布 式 计算 的 丰富 含 
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义 。 大 量 计算 设备 的 互联 产生 了 一 种 规模 经 济 : 在 其 中 ， 人 们 不 再 关注 服务 和 数据 存放 的 
物理 位 置 。“ 云 ”这 个 术语 出 现在 20 世纪 90 年 代 后 期 ， 可 能 是 在 相关 的 技术 或 市 场 研 讨 
中 ， 人 们 使 用 云 来 比喻 由 计算 机 构成 的 网 络 。 

早 在 20 世纪 60 年 代 中 期 ，MIT 的 MAC 项 目 已 经 体现 出 了 类 似 的 想法 ， 即 : 构建 一 
种 能 够 向 众多 用 户 提 供 计算 资源 共享 的 系统 。MAC 是 词组 “Multiple-Access Computer” 
中 单词 的 首 字母 缩写 ， 有 时 也 代表 “ Man And Computer”。 该 项 目 产 生 了 Multics AB, 
一 个 强大 的 可 以 对 内 存 、 外 存 、CPU 等 昂贵 的 计算 资源 进行 分 时 复 用 的 多 道 程序 系统 (每 
个 用 户 使 用 这 些 资 源 的 成 本 得 到 了 极 大 的 降低 )。J. C. R. Licklider 是 这 种 思想 灵感 的 提 
出 者 。 他 认为 ,计算 资源 应 该 成 为 一 种 基础 设施 ， 任 何人 都 应 该 可 以 很 方便 地 接 入 其 中 
(Licklider 1960 )。 

在 1969 年 底 开 始 运作 的 计算 机 网 络 ARPANET 使 得 “计算 成 为 基础 设施 ”的 宏伟 设 
想 得 以 成 真 。ARPANET 的 设计 目标 就 是 资源 共享 : 接 和 网络 的 任何 用 户 都 可 以 与 网 络 中 
的 其 他 计算 节点 互联 并 使 用 其 上 提供 的 服务 。 因 此 ， 没 有 必要 去 复制 一 个 已 经 共享 的 服务 
(在 服务 质量 能 够 得 到 保障 的 前 提 下 )。ARPANET 的 设计 者 很 快意 识 到 ， 共 享 服务 应 该 通 
过 名 称 而 不 是 物理 位 置 来 进行 访问 ， 因 此 ， 开 发 一 种 位 置 无 关 的 寻 址 系统 对 于 屏蔽 网 络 通 
信 的 底层 细节 至 关 重 要 。Vint Cerf 和 Bob Kahn 发 明了 TCP/IP 通信 协议 (1974 )， 能 够 支 
持 互 联网 上 的 任何 两 台 计 算 机 在 仅 知晓 对 方 卫 地址 (一 种 逻辑 地 址 ) 而 无 需 知晓 物理 地 
址 的 情况 下 进行 信息 传递 。1983 Æ, ARPANET 开始 正式 使 用 TCP/IP 协议 。 

1984 4E, ARPANET 开始 使 用 域名 系统 ， 一 种 将 特定 的 字符 串 映射 到 IP 地 址 的 在 线 
数据 库 ( 例 如， 将 字符 串 “ gmu.edu” BRAY A IP 地 址 “129.174.1.38”)。 域 名 系统 带 来 了 
另 一 个 层次 上 的 位 置 无 关 性 : 用 户 现在 只 需要 记 住 一 些 具 有 语音 信息 的 字符 串 ， 就 能 够 访 
问 对 应 的 互联 网 服务 。 

到 20 世纪 90 年 代 ， 万 维 网 (World Wide Web) 的 出 现 使 得 任何 信息 对 象 都 可 以 在 互 
联网 上 进行 共享 。 信 息 对 象 使 用 URL (Uniform Resource Locator， 统 一 资源 定位 符 ) 进行 

命名 。URL 的 基本 格式 是 “主机 名 /路 径 名 ”， 其 中 路 径 名 指出 了 一 个 信息 对 象 在 给 定 主 
机 上 的 目录 位 置 。20 世纪 90 年 代 中 期 ，Robert Kahn 设计 了 一 个 互联 网 服务 handle.net。 
该 服务 可 以 把 一 个 具有 唯一 性 的 标识 符 映射 为 一 个 信息 对 象 的 URL。 基 于 此 ， 他 还 为 美 
国 国会 图 书馆 和 大 多 数 的 出 版 商 设 计 了 DOI (Digital Object Identifier， 数 字 对 象 标识 符 ) 
系统 (Kahn and Wilensky 2006), DOI 提供 了 更 高 层级 的 透明 性 : 一 旦 为 一 个 数字 对 象 赋 
予 一 个 DOI 之 后 ， 这 个 DOL 将 永久 指向 该 数字 对 象 ， 无 论 该 对 象 存放 在 何 处 或 何 时 被 创 
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Œ (Denning and Kahn 2010 ) 。 

面向 终端 用 户 的 分 布 式 计算 服务 的 技术 架构 在 近年 来 持续 发 展 。Multics 系统 使 得 
一 个 大 型 计算 机 系统 可 以 在 其 用 户 间 分 享 计算 资源 。20 世纪 70 年 代 ， 施 乐 Palo Alto W 
究 中 心 (PARC) 构造 了 Alto 系统 ， 一 个 由 连接 至 以 太 网 的 一 组 图 形 工作 站 形成 的 网 络 
(Metcalfe and Boggs 1983 )。 施 乐 将 该 系统 的 体系 结构 命名 为 “客户 端 - 服务器 ”架构 ， 
因为 用 户 总 是 通过 一 个 本 地 的 接口 (客户 端 ) 来 访问 网 络 上 的 服务 。X-Window 系统 (1984 
年 源 于 MIT) 是 一 个 通用 的 客户 端 - 服务器 系统 : 它 支 持 一 个 新 的 服务 提供 者 将 其 硬件 
和 用 户 接 口 接 人 和 人 网络， 而 无 需 设计 相应 的 客户 端 - 服务 器 通信 协议 。 今 天 ， 大 多 数 的 web 
服务 都 使 用 了 客户 端 - 服务 器 架构 : 服务 提供 者 通过 展现 在 标准 web 浏览 器 上 的 界面 为 
用 户 提供 服务 。 大 多 数 云 中 的 服务 也 采用 客户 端 -服务 器 架构 ， 其 中 URL 系统 对 服务 带 
的 物理 位 置 进行 了 完全 的 屏蔽 。 

K 2.3 给 出 了 云 计 算 领 域 涉 及 的 人 人、 问题 以 及 计算 基本 原理 。 


R23 云 计算 领域 
X 网 络 设计 者 ， 分 布 式 计算 设计 者 ， 客 户 端 - 服务 器 架构 师 ， 企 业 
系统 设计 者 ， 商 业 人 员 ， 政 府 人 员 ， 经 济 学 家 
内 容 位 置 无 关 的 服务 与 数据 存储 ， 备 份 ， 分 布 式 计算 模型 
通信 纠 错 代 码 ， 声 音 与 图 像 文件 的 压缩 ， 基 于 位 置 的 识别 
Map-Reduce 方 法， 大 规模 并 行 计 算 
ee 数据 复制 ， 原 子 事物 ， 事 务 回 滚 ， 数 据 库 结构 ， 互 联网 搜索 ， 命 
CeCe 名 ， 数 字 对 象 标识 符 ， 数 字 对 象 句柄 E 
锁 协 议 ， 回 滚 协议 ， 文 件 传输 协议 ， 文 件 同步 协议 ， 超 文本 协 
议 ， 域 名 系统 ， 时 间 惟 ， 版 本 控制 
大 规模 并 行 和 分 布 式 存储 系统 的 性 能 
接口 设计 ， 数 据 仓库 体系 结构 
et 社交 网 路 ， 电 子 商务 ， 关 键 基础 设施 建 模 ， 位 置 统计 推断 
大 数据 


大 数据 是 最 近 出 现 的 男 一 个 时 睹 概念 ， 其 背后 隐藏 了 关于 计算 的 丰富 信息 。 大 数据 
关注 如 何 对 互联 网 上 的 海量 数据 进行 分 析 ， 从 中 发 现 有 价值 的 统计 规律 和 相关 性 等 信息 。 
这 种 分 析 可 以 广泛 应 用 于 各 种 领域 ， 例 如 和 科学、 工程、 商业 、 人 口 普查 、 执 法 等 。 

计算 机 科学 家 对 数据 的 存储 、 查 询 及 处 理 已 经 进行 了 长 时 间 的 关注 ， 而 且 很 多 关注 
的 问题 甚至 比 目 前 的 技术 进展 还 要 超前 。 可 惜 的 是 ， 这 些 超前 的 想法 由 于 各 种 因素 的 影响 
被 埋没 在 历史 的 尘埃 中 ， 被 大 众 所 遗 忘 。 "大 数据 ”这 一 术语 在 很 大 程度 上 是 新 瓶装 旧 酒 ， 


虽然 这 一 术语 确实 对 很 多 领域 产生 了 显著 的 影响 。 例 如 ， 在 商业 活动 中 ， 商 业 组 织 收集 海 
量 的 客户 相关 数据 ， 并 利用 这 些 数据 去 发 现 市 场 趋势 、 广 告 投放 对 象 以 及 客户 忠诚 度 等 信 
息 。 受 到 公共 资金 资助 的 科研 项 目 也 被 要 求 对 外 公开 其 数据 ， 以 方便 公众 和 其 他 科研 项 目 
能 够 对 这 些 数 据 进行 多 方面 的 利用 和 分 析 。 和 警察 系统 则 利用 海量 的 通信 信息 和 信用 卡 交易 
言 息 ， 从 中 发 现 犯罪 分 子 。 所 有 这 些 领域 都 开始 主动 寻求 数据 科学 家 、 数 据 分 析 师 以 及 数 
据 系统 设计 师 来 帮助 他 们 进行 数据 分 析 工 作 。 

计算 机 科学 家 在 其 中 的 贡献 主要 体现 在 两 个 方面 。 一 方面 是 关于 更 高 效 地 数据 分 
析 方 法 ， 另 一 方面 则 是 能 够 支持 海量 数据 处 理 的 系统 或 技术 架构 。 例 如 ，Richard Karp 
(1993 ) 基于 组 合 方法 实现 了 对 基因 数据 片段 进行 融合 从 而 形成 基因 组 图 谱 的 高 效 算法 。 
Tony Chan 和 Yousef Saad (1986) 的 研究 工作 表明 ，hypercube (一 种 早期 出 现 的 并 行 计 
算 架 构 ) 对 于 多 重 网 格 算法 (一 类 重要 的 数字 计算 方法 ) 具有 最 优 的 效果 ， 而 多 重 网 格 算 
法 能 够 对 大 规模 数据 空间 的 数学 模型 进行 求解 。Jeffrey Dean 和 Sanjay Ghemawat ( 2008 ) 
设计 了 MapReduce 算法 ， 能 够 支持 数 千 个 处 理 器 通过 并 行 的 方式 对 海量 数据 进行 处 理 。 

在 商业 领域 中 ， 如 何 对 大 规模 数据 集 进 行 处 理 和 分 析 一 直 以 来 都 是 一 个 重要 的 问题 。 
商业 组 织 会 收集 关于 客户 、 库 存 、 产 品 制造 、 财 务 等 方面 的 各 种 数据 ， 这 些 数据 对 于 一 个 
大 型 的 国际 化 商业 组 织 的 正常 运转 具有 非常 重要 的 作用 。20 世纪 30 年 代 ， 一 个 电子 计算 
机 还 未 出 现 的 年 代 ，IBM 靠 出 售 类 似 卡 片 分 类 器 和 检索 器 的 简单 设备 从 数据 处 理 市 场 获 
得 了 巨大 的 财富 。20 世纪 50 年 代 ，IBM 开始 向 电子 数据 处 理 领域 发 展 ， 转 型 成 为 一 家 计 
算 机 公司 。1956 年 ,IBM 对 外 发 布 了 第 一 个 硬盘 存储 系统 RAMAC 305， 受 到 了 广泛 关注 。 
IBM 声称 ， 任 何 商业 组 织 都 可 以 将 其 堆 满仓 库 的 文件 资料 转移 到 一 个 小 小 的 硬盘 中 ， 进 
而 能 够 对 数据 进行 极为 高 效 的 处 理 。 随 着 数据 存储 需求 的 不 断 增长 ， 设 计 者 开始 关注 如 何 
对 数据 进行 有 效 的 组 织 从 而 实现 对 数据 的 快速 访问 和 简易 维护 。 当 时 ， 两 个 主流 且 存 在 竞 
争 关系 的 方法 分 别 是 综合 数据 系统 (Integrated Data System, IDS) (Bachman 1973 ) 和 关 
系数 据 库 系统 (Relational Database System, RDS) (Codd 1970，1990 ) 。 综 合 数据 系统 具 
有 了 简单、 快速 、 实 用 等 特点 ， 能 够 在 管理 大 量 数据 文件 的 同时 隐藏 文件 在 硬盘 上 的 物理 结 
构 和 位 置 。 关 系数 据 库 系统 则 基于 数学 化 的 集合 理论 ， 它 具有 一 个 非常 清晰 的 概念 模型 ， 
但 在 经 过 了 多 年 的 发 展 后 才 实现 了 与 综合 数据 系统 相当 的 处 理 效 率 。 从 20 世纪 70 年 代 
开始 ， 研 究 领 域 形 成 了 一 个 关于 大 规模 数据 库 (very large databases) 的 研究 团体 ， 并 每 
年 召开 一 次 学 术 会 议 (VLDB) 对 相关 议题 进行 讨论 。 

从 20 世纪 50 年 代 开 始 ， 计 算 领 域 的 研究 者 进入 了 文档 管理 领域 : 帮助 文档 管理 员 
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组 织 数 据 以 实现 更 加 快速 的 文档 检索 。 图 书馆 是 这 些 信息 检索 系统 的 第 一 代用 户 。 研 究 者 
开发 了 模糊 查询 系统 。 例 如 ， 用 户 可 以 发 出 “请 查找 关于 信息 检索 的 文档 ”， 而 返回 的 文 
档 中 不 一 定 包含 “信息 检索 ”这 个 字符 串 。 今 天 ， 互 联网 就 是 一 个 巨大 的 无 结构 的 存储 系 
统 。 在 互联 网 上 进行 关键 词 检索 非常 快速 但 却 不 够 准确 ， 因 此 ， 有 效 的 互联 网 信息 检索 仍 
然 是 一 个 困难 的 问题 (Dreyfus 2001 )。 

Gartner Group 将 现代 的 “大 数据 ”定义 为 4V : 数据 体 量 巨 大 ( Volume)、 数 据 的 产 
生 速 度 快 (Velocity)、 数 据 的 表现 格式 丰富 ( Variety)、 数 据 对 决策 活动 具有 重要 的 支持 作 
用 ( Veracity is important to decisions), M 2014 年 开始 ， 数 据 科 学 的 课程 或 关于 数据 科学 
的 研究 中 心 在 大 学 和 其 他 研究 机 构 中 如 雨 后 春 筹 般 出 现 。 多 个 领域 都 涉及 其 中 ， 例 如 , 来 
自 运筹 学 和 统计 学 领域 的 分 析 师 、 来 自 计算 机 科学 和 信息 系统 领域 的 架构 设计 师 以 及 来 自 
建 模 和 仿真 领域 的 可 视 化 工程 师 。 这 些 实践 和 研究 活动 也 确立 了 “数据 科学 ”领域 的 主要 
研究 问题 : 寻找 对 大 规模 数据 集 进 行 处 理 和 分 析 的 科学 理论 基础 。 

K 2.4 给 出 了 大 数据 领域 涉及 的 人 、 问 题 以 及 计算 基本 原理 。 








R24 大 数据 领域 
Ñ 角色 商业 人 员 ， 政 府 机构 ， 企 业 设计 者 ， 科 学 数据 收集 者 ， 统 计 学 
家 ， 大 系统 建 模 者 


超大 规模 数据 集中 相关 项 的 发 现 ， 计 算 复 杂 性 ， 隐 私 问题 ， 推 
断 ， 数 据 恢复 取证 ， 信 息 检索 
从 大 规模 传感器 集 合 向 集中 存储 器 的 可 靠 信 息 传 输 ， 数 据 破 坏 、 


问题 故障 ， 问 题 ， 关 注 点 


修改 及 丢失 检测 ， 数 据 控 制 权 的 非法 转移 检测 
数据 分 析 算法 的 计算 复杂 性 
l = 存储 ， 备 份 ， 错 误 控制 ， 数 据 存在 性 测试 ， 数 据 物 理 位 置 测试 ， 
ees Ma 超大 规模 数据 库 数据 恢复 取证 
Map-Reduce 计算 
超大 规模 网 络 中 大 规模 查询 和 分 析 的 完成 时 间 预 测 
数据 备份 ,数据 索 引 ， 最 优化 检索 的 组 织 结构 
来 源 于 其 他 领域 Sy k 
总 结 


本 书 采用 的 关于 计算 重要 原理 的 框架 提供 了 一 种 有 效 的 方式 去 分 析 特 定 技术 所 涉及 
的 基本 原理 。 这 种 框架 也 可 以 用 来 分 析 特 定 计算 应 用 领域 背后 所 基于 的 计算 基本 原理 ， 
在 这 些 领域 中 ， 具 有 不 同 技术 或 工程 背景 的 人 之 间 相 互 配合 来 解决 该 应 用 领域 中 存在 的 
问题 。 


通信 的 内 容 语 义 与 通信 工程 无 关 。 
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—Claude E. Shannon 


软件 并 不 只 是 交互 设备 ， 更 生成 了 一 个 用 户 生 活 空 间 。 





Terry Winograd 


自从 数学 家 、 通 信和 工程 师 克 劳 德 . 香农 (Claude E. Shannon) 在 20 世纪 40 年 代 发 现 
信息 论 以 来 ， 关 于 信息 的 研究 迅速 发 展 。 信 息 论 中 的 一 个 关键 准则 就 是 信息 和 含义 是 有 区 
别 的 ， 这 就 使 得 机 器 可 以 忽略 含义 而 去 处 理 信息 本 身 。 然 而 ， 整 个 通信 和 计算 的 目的 是 传 
达 并 产生 有 含义 的 结果 ， 这 又 将 如 何 实现 呢 ? 

软件 设计 师 、 科 学 家 和 消费 者 都 希望 软件 能 够 生成 虚拟 世界 、 社 交 网 络 、 音 乐 、 新 


发 现 、 财 务 预测 、 情 书 和 令 人 激动 的 图 片 等 ， 


甚至 更 多 。 例 如 ， 一 只 股票 的 报价 表 在 财务 


外 行 看 来 可 能 是 数字 乱码 ， 而 对 于 专业 投资 者 来 说 却 有 着 极 大 的 价值 。 当 所 研究 的 基本 对 
象 具 有 一 定 主观 性 时 ， 我 们 又 该 如 何 界定 信息 科学 呢 ? 


这 些 问题 看 起 来 有 些 自 相 矛盾 ， 因 
为 信息 论 认 为 含义 和 计算 机 器 无 关 一 一 
这 似乎 和 人 们 使 用 计算 系统 的 经 验 是 矛 
盾 的 。 此 外 ， 在 很 多 人 看 来 信息 的 概念 
似乎 又 是 模糊 和 抽象 的 ， 难 以 理解 信息 
系统 实际 是 如 何 工 作 的 。 这 一 章 的 目的 
就 是 说 明 信 息 是 非常 真实 的 ， 是 以 一 种 
物理 可 见 的 模式 存在 的 ( 见 图 3.1 )。 我 
们 调研 了 信息 论 中 必然 会 提 到 的 有 关 表 
示 和 传输 信息 的 概念 、 信 息 论 如 何 与 可 
计算 性 理论 相 结 合 、 信 息 论 的 局 限 又 在 
何 处 。 经 典 的 信息 论 无 法 解释 信息 的 含 
义 以 及 新 信息 的 产生 ， 而 这 个 调研 则 说 


图 3.1 





1956 年 IBM 发 明了 世界 上 第 一 套 磁 盘 信 息 
存储 系统 ，RAMAC 350。 这 个 机 器 的 宣传 片 
显示 了 疲惫 的 秘书 们 在 文件 柜 走廊 中 穿行 的 
情形 。 影 片 显示 ，RAMAC 350 能 够 存储 大 
约 5 立方 米 文件 柜 中 的 所 有 内 容 ， 并 且 能 够 
支持 几乎 实时 的 数据 搜索 。 该 影片 也 显示 出 
使 看 似 抽 象 的 信息 概念 具象 化 的 尝试 ， 这 对 
于 当时 的 观众 已 并 不 新 奇 (照片 由 IBM 提供 ) 
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明了 其 中 的 原因 。 我 们 通过 描述 一 个 含义 保留 变换 的 模型 来 解决 这 个 明显 的 悖 论 。 


信息 的 表示 

人 类 在 通信 时 是 非常 灵活 的 。 这 里 有 四 个 例子 ， 其 中 前 两 个 例子 阐明 了 什么 是 显 式 含义 : 

1 ) 当 我 们 指向 某 个 物体 并 告诉 朋友 这 个 物体 的 含义 时 ， 这 个 物体 就 “携带 ”了 信息 ， 
因为 从 现在 开始 我 们 的 朋友 无 论 何 时 看 到 这 个 物体 ， 这 个 含义 都 会 在 大 脑 中 触发 。 

2) 当 我 们 发 现 某 些 现象 模式 重复 出 现时 ， 就 会 为 这 样 的 重 现 模式 命名 。 当 我 们 再 次 
看 到 这 样 的 模式 出 现时 ， 便 可 以 预测 结果 。 因 此 ， 这 个 模式 就 携带 了 可 预知 结果 的 信息 。 
科学 的 目的 就 是 发 现 自然 界 中 重 现 的 现象 ， 而 工程 的 目的 就 是 将 这 些 重复 的 模式 转变 为 可 
利用 的 技术 。 

接 下 来 的 两 个 例子 说 明了 什么 是 隐 式 含义 : 

3 ) 社会 群体 会 定义 一 些 重 现 方式 来 交流 信息 。 例 如 ， 很 多 司机 将 要 进入 高 速 公路 
时 ， 会 一 边 缓慢 地 靠近 高 速 通道 一 边 开 局 方向 灯 ， 但 并 没有 成 文 的 规定 要 求 他 们 这 样 做 。 

4) 人 们 日 常生 活 中 的 很 多 习惯 和 惯例 是 没有 命名 但 携带 信息 的 。 例 如 ， 在 大 多 数 文 
化 中 ,“ 过 来 ”的 手势 传递 的 就 是 让 别人 靠近 你 的 信息 。 

科学 家 和 工程 师 的 工作 就 是 构建 技术 来 处 理 显 式 的 信息 ， 也 就 是 建立 信息 的 物理 表 
示 与 预期 含义 的 关联 ， 如 使 用 电磁 信号 对 人 的 声音 进行 编码 。 这 样 ， 我 们 通过 声明 表示 与 
含义 之 间 关 联 的 方式 来 产生 信息 ， 然 后 通过 在 存储 器 中 存储 这 些 表 示 方 式 并 且 用 不 同 的 变 
换 规则 来 处 理 这 些 信息 。 

干 百 年 来 ， 社 会 学 家 和 哲学 家 努力 探索 隐 式 的 信息 ， 通 常 很 少 有 一 致 的 看 法 。 而 工 
程 师 对 于 显 式 信 息 的 处 理 则 要 简单 许多 。 

人 工 智能 试图 跨越 显 式 信息 和 隐 式 信息 的 边界 ， 工 程 师 正在 寻找 既 能 识别 隐 式 信息 
又 易于 人 类 理解 的 信息 表示 方式 。 

无 论 是 显 式 还 是 隐 式 的 信息 ， 这 些 信 息 的 存在 都 建立 于 人 类 认 知 的 一 致 。 我 们 理解 某 
种 表示 的 含义 ， 因 为 要 么 有 人 直接 告诉 我 们 如 何 解 释 它 ， 要 么 我 们 间接 通过 经 验 学 习 到 。 

计算 机 和 通信 工程 师 将 信息 编码 成 电磁 信号 进行 传输 。 例 如 麦克 风 将 人 的 声音 转变 
为 电信 号 ， 然 后 通过 一 个 磁盘 记录 这 个 信号 的 副本 ， 最 后 扩 音 需 将 这 个 磁盘 中 的 信号 转变 
为 声波 。 无 线 发 射 机 将 声音 信号 又 加 在 射频 信号 中 ， 通 过 射频 的 幅度 来 表达 这 个 信号 ， 而 
接收 机 只 要 减 去 原本 的 射频 信号 就 可 以 提取 出 声音 信和 号。 工程 师 对 于 如 何 编码 信息 表示 方 
式 及 其 含义 必须 准确 一 致 ， 否 则 这 套 物 理 系 统 就 会 出 错 。 
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计算 机 和 通信 工程 师 使 用 比特 (二进制 数字 ) 作为 信息 的 基本 单位 。 香 农 在 20 世纪 
40 年 代 中 期 引入 了 “比特 ”， 那 时 是 计算 机 时 代 的 初期 。 尽 管 使 用 十 进 制 来 构造 的 硬件 元 
件 也 可 以 使 用 ， 并 且 早 期 也 有 一 些 计算 机 使 用 这 些 硬件 ， 然 而 采用 二 进 制 元 件 因 更 加 可 靠 
而 逐渐 变 成 行业 标准 。 香 农 发 现 二 进 制 计算 电路 的 功能 可 以 用 逻辑 公式 来 表示 ， 该 公式 中 
只 包含 “ 真 ”或 “ 假 ”两 种 变量 。 因 此 ， 比 特 模式 可 以 表示 计算 机 电路 。 电 路 处 理 的 数字 
就 是 这 些 二 进 制 数字 ， 也 就 是 电路 表示 的 数字 本 身 ( 见 图 3.2 )。 自 20 世纪 50 年 代 以 来 ， 
计算 机 完全 变 成 了 二 进 制 ， 无 论 是 逻辑 电路 还 是 其 数据 存储 。 
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1 全 
图 3.2 ”儿童 使 用 卡片 来 快速 学 习 二 进 制 数字 。 上 图 : 每 张 卡片 都 比 其 右边 的 卡片 多 一 倍 的 点 数 。 
4 个 儿童 列 成 一 排 ， 引 导 他 们 通过 举 起 卡片 来 表示 不 同 的 数字 。 下 图 : 当 第 一 个 和 第 四 个 
儿童 举 起 卡片 而 第 二 、 三 个 儿童 藏 起 卡片 时 ， 数 字 9 出 现 了 。 通 过 这 种 方式 ， 儿 童 很 容易 
掌握 二 进 制 。 由 于 任何 信和 号 都 可 以 数字 化 为 二 进 制 数字 ， 任 何 文本 文件 也 可 以 被 编码 成 二 
进 制 数字 ， 因 此 位 成 为 了 信息 表示 和 量化 的 通用 方式 (由 Tim Bell 和 Mike ellows 提供 ， 
csunplugged.org/videos ) 
香农 还 证 明了 实际 上 大 部 分 通信 系统 中 的 连续 信号 也 可 以 数字 化 ， 而 数字 化 引起 的 
一 些微 不 足 道 的 误差 完全 可 以 忽略 ， 稍 后 将 简要 说 明 。 
所 有 的 数据 形式 ， 包 括 数字 、 信 和 号、 逻辑 公式 、 文 本 等 ， 都 可 以 表示 成 位 模式 ， 位 
成 为 衡量 信息 量 的 标准 单位 。 现 代词 语 中 的 “24 位 颜色 ”“100MB 通信 ” “32 位 电脑 ”和 
“256 位 密 钥 ”等 都 包含 位 的 概念 。 在 20 世纪 60 年 代 ， 计 算 机 制造 商 开 始 使 用 “ 字 节 ”( 即 
一 组 8 位 信息 ) 来 表示 ASCH 扩展 码 中 的 单个 字母 、 数 字 或 标点 符号 。 后 来 ， 计 算 机 处 理 
的 数据 呈 指 数 增长 ， 于 是 人 们 开始 使 用 新 的 希腊 文 前 绥 来 命名 这 些 数据 ( 见 表 3.1 )。 其 中 
每 一 个 前 缀 都 表示 前 一 项 前 级 的 1000 倍 (Ek 1024 FF, 2'°). FE 20 世纪 60 年 代 ， 磁盘 和 
内 存 容量 通常 用 千 字 节 来 衡量 ， 到 了 80 年 代 ， 便 用 千 兆 字 节 来 衡量 ， 而 那 时 的 NASA( 美 
国 国 家 航空 航天 局 ) 却 一 直 苦 恼 于 如 何 存 储 每 日 卫星 接收 到 的 1TB 的 数据 量 。 到 了 2014 
年 ,“ 大 数据 ”用 于 描述 PB 级 字 节 的 数据 量 ， 同 时 每 年 因特网 的 数据 量 都 超过 了 1ZB F 
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节 。 思 科 公 司 〈2012 ) 预测 网 络 规模 和 数据 将 持续 以 指数 形式 增长 。 


表 3.1 数据 单位 名 称 


aa STEE 
megabyte (MB) 10° 字 节 yt Aa 
Spy (OB) Paw 
petabyte 10° 字 节 2° 字 节 
ET Ea 
zettabyte 107 字 节 2” 字 节 


通信 系统 


通信 系统 是 最 简单 的 信息 系统 ， 在 1948 年 一 篇 名 为 《通信 的 数学 理论 》 的 文章 中 ， 
香农 提出 了 通信 系统 的 第 一 个 理论 模型 (Shannon 1948 ) ( 见 图 3.3 )。 其 本 质 是 如 下 过 程 : 
消息 源 发 送 一 条 消息 ， 编 码 器 按照 编码 本 规定 为 这 条 信息 生成 一 个 独 有 的 信号 ; 信道 作为 
中 间 媒 介 从 源 到 端 运载 这 个 信号 ; 接收 端的 解码 器 使 用 同样 的 编码 本 将 这 个 信号 转换 成 初 
始 形式 一 一 消息 就 到 达 接 收 处 了 。 香 农 的 模型 适用 于 任何 使 用 编码 、 解 码 、 传 输 、 存 储 或 
是 查询 信号 数据 的 系统 ， 甚 至 可 以 作为 科学 发 现 的 模型 : 将 自然 界 看 作 现 象 (消息 ) 的 源 
头 ， 而 传输 媒介 〈 即 通道 ) 就 是 探索 的 过 程 (Dretske 1981 )。 


噪音 





图 3.3 HE- 香农 (1916 一 2001 ) 描述 了 一 个 信息 系统 模型 ， 它 是 当今 信息 论 的 基石 。 消 息 源 
代表 所 有 可 能 要 发 送 的 消息 的 集合 ， 信 道 是 存储 和 运载 信号 的 媒介 ， 编 码 是 将 消息 转换 为 
信号 ,解码 是 将 信号 还 原 为 消息 ， 编 码 本 包含 了 消息 与 信号 互相 转换 的 规则 ， 噪 声 是 指 任 
何 改 变 信 号 的 事物 


Eq 点 7 


噪声 是 通信 模型 中 的 一 个 重要 元 素 。 任 何在 传输 通道 中 改变 信号 ， 从 而 导致 解码 出 
错误 消息 的 干扰 都 是 噪声 。 通 信 技 术 中 噪声 的 例子 比比 缘 是 : 雾气 和 黑暗 干扰 了 船只 之 
间 的 信号 通信 ; 电报 站 之 间 过 长 的 距离 减弱 了 信号 的 强度 ; 雷电 干扰 了 调频 广播 的 传输 ; 
DVD 上 的 划 痕 会 导致 读 取 失败 ; 环境 的 声音 淹没 了 演讲 的 声音 。 

值得 注意 的 是 ， 在 通信 系统 中 ， 编 码 和 加 密 是 不 一 样 的 。 加 密 是 一 个 额外 的 步骤 ， 在 消息 
到 达 编 码 器 之 前 将 消息 转换 成 密 文 ， 这 样 只 有 拥有 密 钥 的 接收 需 才 能 够 读 取消 息 。 在 这 种 情况 
下 ,通信 系统 的 工作 就 是 将 密 文 准确 地 传输 给 接收 方 ， 如 果 接 收 方 具有 密 钥 则 可 以 进行 解密 。 

正如 前 文 所 提 到 的 ， 香 农 将 他 的 数学 模型 在 二 进 制 位 上 进行 标准 化 ， 他 认为 所 有 的 信和 号 
都 能 够 用 二 进 制 位 表示 ， 这 一 过 程 在 字面 上 被 称 为 数字 化 ， 即 将 模拟 信号 转变 为 数字 信号 。 
数字 化 并 不 是 生成 信息 的 一 个 完全 拷贝 ， 而 是 一 种 近似 化 过 程 ， 因 为 其 常常 会 丢失 一 些 信 
息 。 显 而 易 见 的 例子 有 许多 ， 如 物体 边缘 参差 不 齐 的 像素 化 照片 ， 同 时 也 有 一 些 情形 是 非常 
微妙 不 那么 直观 的 。 物 理 现 象 中 的 定量 分 析 ， 比 如 火星 探测 器 的 轨道 位 置 ， 实 际 上 不 能 通 
过 计算 机 的 有 限 运算 进行 精确 表达 。 舍 人 误差 会 随 着 计算 步骤 而 逐渐 累加 ， 导 致 整个 计算 
的 精确 度 出 现 问题 ， 使 火星 着 陆 器 面临 危险 。 更 糟糕 的 是 ， 一 些 计算 步骤 会 放大 错误 。 如 
两 个 几乎 相等 的 数 可 以 认为 它们 的 差 近 似 为 零 ， 在 用 这 个 近似 的 差 除 男 一 个 数 时 会 导致 严 
重 错误 。 数 学 软件 的 设计 师 设计 了 很 多 巧妙 的 技术 ,来 防止 这 些 数字 化 错误 破坏 计算 结果 。 

Harry Nyquist 可 谓 当 代 的 香农 ， 他 指出 了 上 述 普遍 规律 中 的 一 个 重要 例外 : 通信 系 
统 可 以 免 受 数字 化 错误 的 影响 (Nyquist 1928 ) 。 每 一 个 连续 、 带 宽 有 限 的 信号 都 可 以 无 
损 地 数字 化 ， 只 要 用 至 于 两 倍 于 最 高 频率 的 采样 率 进 行 采样 。 例 如 音频 光盘 (CD), 为 了 
使 得 质量 没有 明显 损失 ， 要 每 秒 记录 44 100 (44.1 F) 个 采样 点 ， 因 为 几乎 没 人 能 听 到 
高 于 22 000 赫兹 的 声音 。 

香农 认为 ， 由 于 我 们 可 以 对 任何 信号 进行 数字 采样 ， 同 时 也 由 于 真实 的 通信 系统 具 
有 有 限 的 带宽 ， 那 么 将 通信 模型 限制 为 二 进 制 序 列 ， 不 会 有 任何 损失 。 这 不 但 简化 了 数学 
运算 ， 而 且 使 得 这 一 结论 适用 于 所 有 实际 信道 。 

作为 一 个 实例 ， 一 段 简单 的 编码 就 可 以 说 明 通 信 模 型 的 各 种 特性 。 假 设 一 个 消息 源 
只 传输 消息 的 1/4， 我 们 把 完整 的 消息 定 为 A、B、C、D， 为 这 些 字母 分 配 2 位 的 编码 : 





oa y 
e E = E 
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只 能 表示 四 种 消息 的 编码 在 自然 界 中 并 不 少见 ， 我 们 细胞 中 的 DNA 序列 就 是 一 种 只 
使 用 四 个 字母 的 自然 消息 源 一 一 G、A、T 和 C， 它们 是 DNA 中 四 种 核 昔 酸 的 首 字 母 。 

如 果 消 息 源 想 传输 序列 “CAB”， 那 么 就 在 信道 中 传输 “011110” 这 个 位 序列 ， 接 收 
端 会 逆向 这 个 过 程 ， 即 在 编码 本 中 查找 每 一 对 位 码 然后 输出 对 应 的 字母 。 

在 任何 关于 编码 的 讨论 中 ， 我 们 都 需要 在 编码 长 度 ( 码 字 的 位 长 ) 和 信道 抗 扰 能 力 间 
做 出 权衡 。 短 的 编码 更 高 效 、 传 输 更 快 并 且 占 用 较 小 的 存储 空间 ， 然 而 短 编码 非常 容易 受 
到 噪声 的 干扰 ， 信 道中 仅仅 一 位 的 改变 就 会 将 码 字 完全 改变 。 例 如 ， 如 果 信 道 将 A 的 第 
一 个 位 编码 变 为 0， 接收 端 就 会 收 到 01， 然 后 解码 成 C 而 不 是 A。 其 中 一 个 解决 方案 就 
是 使 用 奇偶 校 验 位 来 提示 接收 端 是 否 收 到 错误 信息 ， 当 原 编码 中 有 偶数 个 1 时 ， 奇 偶 校 验 
位 为 偶数 ， 反 之 则 为 奇数 。 下 述 编码 就 是 在 原始 编码 中 添加 第 3 位 为 奇偶 校 验 : 

A: 110 





B: 101 

C: 011 

D: 000 

现在 信道 噪声 将 A 的 第 一 位 编码 变 成 0 后 ， 接 收 端 收 到 O10 时 ,会 发 现 编码 错误 ， 
因为 010 这 个 编码 是 无 效 编码 。 概 括 来 说 ，1 位 的 错误 会 导致 1 的 数量 变 为 奇数 ， 从 而 标 
识 这 是 一 个 未 编码 的 模式 。 

然而 ， 单 一 的 奇偶 校 验 位 并 不 能 标识 出 哪 一 位 被 改变 了 。 上 例 中 ， 接 收 端 知道 010 
是 一 个 无 效 的 编码 ,但 是 并 不 知道 这 三 个 编码 (A、C 或 者 D) 中 的 哪 一 个 被 这 个 位 错误 
改变 了 。 通 过 添加 宛 余 的 编码 ， 解 码 器 不 仅 可 以 检测 是 否 有 错误 编码 ， 还 可 以 定位 具体 受 
影响 的 消息 位 。 试 想 下 面 的 例子 ， 在 原来 编码 的 基础 上 添加 了 3 个 位 : 

A: 11111 

B: 10010 

C: 01001 

D: 00100 

这 个 编码 满足 如 下 准则 : 加 上 额外 的 编码 位 ， 每 一 个 码 字 都 与 别 的 所 有 码 字 至 少 有 3 
MATH], AA 1 位 发 生 错误 ， 接 收 端 收 到 编码 后 会 发 现 这 个 错误 编码 与 正确 编码 只 有 1 位 
不 同 ， 但 是 与 其 他 的 字母 编码 却 有 2 位 甚至 更 多 的 不 同 。 这 样 解码 器 就 可 以 检测 并 修正 只 
有 1 位 发 生 错 误 的 编码 情况 。 

通信 工程 师 理 查 德 : 海 明 (Richard Hamming) 在 1950 年 首先 提出 码 字 之 间 的 距离 
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计算 方式 。 两 个 码 字 之 间 的 距离 就 是 不 同位 码 的 个 数 ， 这 就 是 后 来 有 名 的 “ 海 明 距 离 ”。 
海 明 指 出 ， 若 要 纠正 个 字符 ， 编 码 就 必须 包含 足够 的 位 使 得 码 字 之 间 的 最 小 距离 至 少 
为 2k + 1。 他 也 发 明了 一 系列 编码 ， 也 就 是 现在 的 海 明 码 。 海 明码 在 关 - 1 位 的 码 字 中 
租 入 k 个 校 验 码 ， 然 后 使 用 一 种 简单 的 方法 来 构造 电路 用 以 将 受 损 的 比特 位 转换 为 原来 
的 编码 值 。 最 有 名 的 一 种 海 明 编码 是 (7，4 ) 编码 ,在 4 个 数据 位 中 能 入 3 个 校 验 位 ， 
构成 7 位 的 编码 。 在 计算 机 处 理 器 和 存储 器 之 间 传 输 数据 时 ， 海 明码 被 广泛 用 于 纠 错 。 

当 噪 声 在 码 位 上 随机 分 布 时 ， 海 明码 能 够 正常 工作 。 然 而 ， 在 某 些 信号 中 噪声 可 能 会 
爆发 性 地 出 现 ， 比 如 日 量 会 影响 某 些 深 空 信号 数秒 ， 光 碟 上 的 划 痕 会 损坏 一 系列 邻近 的 凹 
点 ， 这 些 噪 声 被 称 为 突 发 错误 。 另 一 种 类 型 的 编码 一 一 Reed-Solomon 码 便 是 用 于 检测 和 消 
除 罕 发 错误 的 。 它 的 数学 计算 更 加 复杂 ， 但 是 也 和 海 明 码 一 样 很 容易 用 高 速 数字 电路 实现 。 

不 同 于 信号 ， 位 并 没有 实际 物理 意义 。! 位 可 以 表示 可 察 的 任何 两 种 属性 之 一 。 比 如 ， 
工程 师 可 能 让 “1” 代 表 激 光束 在 DVD 表面 某 点 的 反射 ， 而 “0” 则 代表 没有 反射 ; 或 者 
1” 代 表 唱 体 管 的 输出 是 5SV， 而 “0” 则 可 能 代表 输出 是 3V; 或 者 “1” 代 表 一 特定 频率 
(比如 400Hz) 出 现在 一 段 音 乐 录音 中 ， 而 “0” 则 代表 不 是 该 频率 。 位 是 一 种 抽象 表达 ， 
用 来 声明 我 们 想 让 系统 做 什么 。 工 程 师 将 这 些 物理 的 “东西 "(材料 ) 进行 组 装 ， 用 以 完成 
所 定义 的 功能 。 

物理 系统 中 的 信息 总 是 要 由 物理 状态 来 表达 ， 而 读 写 和 变换 这 些 信 息 也 需要 花费 时 
间 和 精力 ， 因 此 通信 和 计算 从 来 都 逃脱 不 了 物理 世界 的 限制 。 计 算 机 芯片 工程 师 知道 蓄 热 
和 尺寸 大 小 (局 片上 所 有 电路 元 件 的 平均 尺寸 ) 等 是 影响 他 们 能 把 电路 做 成 多 小 的 实际 限 
制 所 在 。 同 时 每 一 个 操作 的 时 间 消 耗 量 则 限制 了 可 用 时 间 内 可 计算 的 指令 数 。 尽 管 新 的 算 
法 在 常规 难题 优化 上 有 极 大 的 改善 ， 但 计算 量 极 大 的 一 些 问 题 仍然 非常 棘手 ， 因 为 其 物理 
运算 所 需要 的 时 间 大 大 超出 我 们 的 可 等 待 范围 。 例 如 ， 在 目前 广泛 应 用 的 RSA 加 密 系统 
中 ,为 了 寻找 构成 600 位 密 钥 的 两 个 因子 ， 即 使 利用 目前 最 快 的 计算 机 也 需要 几 百 年 的 
时 间 。 

这 些 年 ， 存 储 和 计算 能 力 呈 指数 增长 。 在 香农 发 表 其 文章 的 同一 年 ， 在 同一 个 地 
方 一 一 贝尔 实验 室 ， 电 子 计算 机 就 开始 使 用 新 发 明 的 晶体 管 来 取代 真空 管 。 电 路 设计 师 
能 够 压缩 晶体 管 的 大 小 ， 每 18 ~ 24 个 月 的 时 间 就 能 够 无 额外 费用 地 将 接近 两 倍 的 晶体 
管 放 在 同样 大 小 的 物理 空间 。 这 种 压缩 体积 的 过 程 已 持续 了 50 年 ， 使 得 每 10 年 就 有 了 
100 倍 计算 能 力 的 增加 ， 这 个 趋势 就 是 广为人知 的 摩尔 定律 。 英 特 尔 的 创始 人 之 一 一 一 戈 
& + 摩尔 (Gordon Moore) 在 他 1965 年 的 论文 中 首次 描述 了 摩尔 定律 (Moore 1965 )。 
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摩尔 定律 带 给 人 们 两 种 效应 和 影响 。 一 个 是 惊人 的 计算 能 力 ， 这 对 于 20 世纪 40 年 
代 的 计算 科学 先驱 们 来 说 如 魔法 一 般 ; 另 一 个 是 正如 James Gleick (2011 ) 所 称 的 如 洪水 
般 的 信息 。 第 一 种 影响 一 一 每 一 个 传输 和 存储 信息 的 更 小 物理 机 制 ， 都 会 导致 第 二 种 影 
响 一 一 信息 的 极 大 丰富 。 人 们 被 巨 量 的 信息 淹没 ， 无 法 消化 信息 ， 变 得 不 知 所 措 。 

庞大 的 计算 能 力 导 致 了 一 个 流行 的 错觉 ， 那 就 是 计算 机 所 操作 的 是 位 而 非 原子 ， 因 
此 计算 结构 在 尺寸 和 能 量 上 没有 物理 限制 (Negroponte 1996 )。 从 物理 的 角度 来 看 ， 这 个 
概念 是 完全 错误 的 。 因 为 抽象 的 位 必须 依靠 物理 介质 来 记录 ， 而 且 机 器 要 通过 介质 来 获 
取 位 信息 。 这 个 记录 的 过 程 将 我 们 带 回 了 原子 世界 : 没有 它们 我 们 无 法 完成 计算 。 我 们 
可 以 在 极 小 的 物理 元 件 上 进行 快速 的 计算 、 传 输 和 存储 ， 但 从 来 无 法 消除 它们 的 时 间 和 
功 耗 。 


信息 的 测量 

香农 设计 了 一 个 用 于 测量 信息 源 中 所 含 信息 的 方法 ， 因 为 他 想 知 道 信息 源 中 最 短 码 
的 长 度 。 编 码 的 位 数量 并 不 能 作为 一 个 衡量 标准 ， 正 如 我 们 在 上 文中 所 看 到 的 ， 单 个 信息 
源 可 以 用 任意 数量 的 不 同 编码 来 表示 。 他 的 结论 是 一 个 好 的 衡量 标准 应 该 是 消息 集合 中 最 
短 编 码 的 长 度 ， 若 编码 再 短 一 些 则 无 法 传输 消息 源 的 所 有 信息 。 

他 认为 衡量 信息 不 应 该 依赖 人 类 所 观察 到 的 编码 的 含义 ， 而 应 该 忽略 信息 的 上 下 文 ， 
寻求 编码 、 传 输 和 解码 的 固定 工作 机 制 。 邮 政 服务 遵循 相似 的 准则 : 他 们 的 分 发 和 传输 系 
统 从 不 依赖 于 所 运输 的 信封 中 的 内 容 。 香 农 非凡 的 洞察 力 表现 在 “将 信息 的 接收 等 同 于 不 
确定 性 的 减少 ”。 他 定义 信息 为 判断 信息 源 正在 传送 哪个 消息 所 需要 回答 的 是 非 ( yes-no) 
问题 的 最 小 数量 。 我 们 越 了 解 某 个 信息 源 可 能 会 发 送 什 么 消息 ， 那 么 看 到 这 条 消息 时 所 获 
得 的 信息 量 就 越 少 。 

假设 你 知道 某 人 将 会 只 回答 一 个 是 非 问题 ， 但 提前 无 法 得 知 回答 者 的 答案 ， 那 么 回答 
者 通过 回答 解决 了 你 的 不 确定 性 。 香 农 认为 回答 者 只 给 了 你 一 位 的 信息 (1 或 0)， 即 从 两 
种 可 能 答案 中 选择 其 中 一 个 。 当 答案 有 两 个 以 上 时 ， 需 要 更 多 的 位 来 区 分 发 送 的 消息 。 

假设 我 们 想 在 电话 敌 中 找到 含有 某 个 朋友 名 字 的 那 一 页 ， 那 么 需要 多 少 位 来 对 页 数 
进行 编码 呢 ? 一 个 聪明 的 方法 回答 了 这 个 问题 : 我 们 从 中 间 打 开 电 话 短 ， 然 后 询问 哪 一 
半 含 有 朋友 的 名 字 《〈 由 于 使 用 字母 顺序 编写 电话 短 ， 这 个 问题 就 很 容易 回答 )。 然 后 我 们 
把 含有 名 字 的 那 一 半 电 话 短 再 分 割 成 两 半 ， 询 问 同样 的 问题 。 重 复 这 个 步骤， 直到 只 剩 一 
页 ， 这 个 朋友 的 名 字 就 应 该 在 那 一 页 上 。 这 个 重复 的 问题 (“ 哪 一 半 ” 或 者 说 “是 否 在 左 








边 一 半 ”) 让 我 们 快速 定位 。 对 于 一 本 有 512 页 的 电话 每 ， 第 一 个 问题 留 下 了 256 页 来 搜 
索 ， 第 二 个 问题 留 下 128 页 ， 然 后 64，32，16，8，4，2， 最 后 是 1。 需 要 9 个 “ 哪 一 半 ?” 
问题 来 寻找 包含 名 字 的 那 一 页 。 因 此 ， 当 找到 包含 朋友 名 字 的 那 一 页 时 ， 我 们 获取 了 9 位 
的 信息 量 。 

在 构建 编码 时 ， 人 们 需要 思考 消息 的 发 生 概 率 。 塞 缪 尔 : 莫 斯 (Samuel Morse) £ 
了 英 斯 密码 ， 并 将 之 应 用 于 19 世纪 30 年 代 他 参与 发 明 的 电报 中 。 他 分 配 最 短 的 编码 ( 单 
个 点 ) 来 表示 字母 e， 因 为 e 是 在 英文 中 使 用 最 频繁 的 字母 (大约 12%)。 他 将 最 长 的 编码 
分 配给 字母 j， 因 为 j 是 最 少 使 用 的 字母 之 一 ( 约 0.15%)。 这 样 的 分 配 减 少 了 传输 的 平均 
长 度 。 图 3.4 说 明了 用 以 识别 一 个 消息 的 问题 可 以 用 来 定义 信息 编码 ， 以 及 关于 消息 发 生 
概率 的 先 验 知识 会 减少 编码 量 。 

假设 我 们 有 一 长 度 为 L;、 概 率 为 P 的 码 字 和 集合。 那么 编码 的 平均 长 度 就 是 

L= XLP; 

对 于 图 3.4 中 的 编码 ， 公 式 计算 出 第 一 种 编码 的 平均 长 度 是 2 位 ， 而 第 二 种 编码 的 平 
均 长 度 是 1.75 位 。 

在 最 优 编码 中 ， 码 字 的 长 度 即 最 小 的 工 是 多 少 呢 ? 香农 在 他 1948 年 论文 的 附录 中 
回答 了 这 个 问题 。 他 表示 最 优 码 字 的 长 度 是 以 2 为 底 的 码 字 出 现 概率 的 对 数 的 相反 数 ， 
即 -logzP;。 因 此 ， 最 优 编码 的 平均 长 度 是 


H =— DP: . log, P, 
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生 在 所 有 的 状态 都 有 同等 发 生 概率 的 情况 下 ， 最 大 的 有 序 度 则 发 生 在 某 一 种 状态 非常 确定 
而 其 他 的 状态 都 绝 不 会 发 生 的 情况 下 。 

香农 认为 炉 是 信息 源 中 固有 信息 的 衡量 标准 。 一 个 信息 源 由 一 组 可 能 的 消息 和 消息 
发 生 的 概率 构成 。 焙 只 取决 于 消息 的 概率 而 不 是 它们 的 编码 ， 焙 可 以 确定 最 短 可 能 编码 的 
平均 长 度 。 任 何 更 短 的 编码 都 将 导致 混淆 从 而 无 法 得 到 唯一 的 解码 结果 。 如 下 面 的 例子 : 
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是 Alice 或 者 Bob 吗 ? 








是 Alice 吗 ? 是 Bob 吗 ? 


Alice Bob Charlie Diana 
11 10 01 00 
B 
是 Alice 吗 ? 


是 Charlie 吗 ? 


Charlie Diana 
001 000 
(0.125) (0.125) 


图 3.4 香农 将 一 个 消息 中 的 信息 量 定义 为 将 该 消息 从 消息 源 中 筛选 出 来 需要 回答 的 是 非 问题 数 ， 
这 些 问题 是 用 来 减少 “哪个 是 被 发 送 消息 ”的 不 确定 性 的 。 试 想 ， 如 果 我 们 要 从 四 个 人 中 
发 现 被 某 任务 选中 的 人 ， 则 可 以 使 用 一 个 简单 的 决策 树 (上 图 )， 我 们 问 :“ 是 Alice 或 者 
Bob 吗 ?” 如 果 答 案 为 是 ， 则 决策 选择 左边 的 子 树 。 再 问 一 个 问题 “是 Alice 吗 ?”， 答 案 就 
揭晓 了 。 每 个 个 体 的 编码 就 是 指向 他 /她 的 是 非 问题 答案 的 路 径 。 如 果 知 道 某 个 个 体 被 选 
中 的 概率 (下 图 括号 里 的 数字 )， 那 么 我 们 可 以 构造 一 个 等 级 决策 树 ， 从 而 使 得 编码 长 度 不 
等 。 例 如 ， 如 果 Alice 是 最 有 可 能 被 选中 的 ， 我 们 就 把 编码 1 分 配给 他 。Bob 是 下 一 个 最 有 
可 能 的 ， 则 分 配 编码 为 01， 然 后 是 Charlie 和 Diana， 他 们 有 相同 的 选中 概率 ， 则 都 被 编码 
为 3 位 


如 果 以 上 这 些 消息 出 现 的 概率 分 别 是 0.5、0.25、0.125 和 0.125， 平 均 编 码 长 度 就 是 
1.25 位 。 然 而 ， 接 收 方 对 于 1001 代表 ABBA, ABC, DBA 还 是 DC 却 无 法 分 辨 。 这 条 消 


AMAA ORI ERARI) AE H = 1.75， 界 定 了 编码 是 否 能 够 解析 的 阔 值 。 这 条 
编码 的 平均 长 度 是 1.25 位 ， 低 于 此 阀 值 ， 所 以 编码 无 法 解析 。 
RS (Huffman) 编码 是 一 种 快速 在 烧 值 内 进行 位 编码 的 方法 (图 3.5 )。 





Alice Bob Charlie Diana 
1 01 001 000 
(0.5) (0.25) (0.125) (0.125) 


图 3.5 1951 4 RAH TOF BEATA TL + 哈 夫 曼 (David Huffman) 设计 了 一 套 编 码 算法 ， 在 已 知 消 
息 概 率 的 情况 下 ， 此 编码 算法 能 够 使 得 平均 编码 长 度 最 小 。 该 算法 首先 将 每 个 消息 都 视 为 
一 棵 单独 的 树 。 然 后 不 断 地 将 两 棵 具有 最 小 概率 的 树 进 行 合 并 ， 合 并 后 树 的 概率 为 两 棵 子 
树 的 概率 和 。 对 于 一 个 具有 nn 条 消息 的 编码 ， 需 要 nn 次 合并 ,形成 最 后 的 树 。 在 本 例 中 ， 
Charlie 和 Diana 首先 合并 ， 然 后 他 们 合并 后 的 树 和 Bob 合并 ， 最 后 和 Alice 合并 。 树 中 的 
每 条 路 径 定 义 了 每 一 条 消息 的 二 进 制 位 编码 。 哈 夫 曼 的 方法 所 生成 的 编码 能 够 将 平均 编码 
长 度 控制 在 米 值 范 围 内 。 若 所 有 的 消息 具有 相等 的 概率 ， 则 生成 图 3.3 前 面 所 示 的 编码 ， 
若 概率 不 相等 ， 则 生成 后 面 这 种 编码 
从 另外 一 个 角度 来 看 ， 灼 国 值 定义 了 信道 是 否 可 信 。 如 果 消 息 源 每 隔 了 秒 传送 一 
则 新 消息 ， 最 短 编码 的 平均 长 度 是 且 , 那么 这 个 消息 源 就 产生 了 每 秒 传送 五 /7T 位 的 需 
求 。 如 果 信 道 的 带宽 是 五 /了 位 每 秒 或 者 更 高 ， 那 么 发 送 方 所 传送 的 所 有 位 都 能 够 到 达 
接收 端 。 若 信道 的 带宽 小 于 及 /T 位 每 秒 ， 某 些 位 就 可 能 丢失 ， 接 收 端 就 无 法 恢复 原始 
消息 。 
文件 压缩 是 信息 论 的 一 个 重要 应 用 ， 因 为 其 可 以 减少 存储 空间 和 缩短 传输 时 间 。 在 
大 部 分 计算 机 程序 中 都 使 用 标准 码 来 表示 文本 ， 包 括 传统 的 固定 长 度 编码 ASCII 和 现代 
的 变 长 编码 Unicode。 这 两 种 情况 下 每 个 字母 都 使 用 了 相同 长 度 的 编码 ， 因 而 ， 通 过 寻找 
重复 模式 并 基于 文件 上 下 文 用 更 短 的 编码 代替 这 些 模式 ， 文 本 文件 可 被 大 幅 压 缩 。 例 如 ， 
一 个 包含 很 多 字母 “e” 的 文件 ， 可 以 用 新 的 更 短小 的 编码 奉 换 它 的 编码 来 压缩 文件 。 新 
的 编码 取决 于 “e” 在 文件 中 的 出 现 频 率 一 一 在 “e” 频 繁 出 现 的 文件 中 ， 这 个 编码 可 能 
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是 3 位 ， 而 在 “e” 不 那么 频繁 出 现 的 文件 中 ， 这 个 编码 可 能 是 5 位 。 文 件 压 缩 算 法 会 生 
成 一 个 新 编码 到 原始 编码 的 转换 表 。“ .zip” 和 “ .rar” 格 式 就 采用 了 这 种 策略 。 这 种 压缩 
策略 的 设计 也 不 会 将 信息 “压缩 ”至 低 于 业 的 冰 值 。 因 为 若是 低 于 阔 值 ， 则 无 法 保证 完全 
恢复 原始 信息 ， 这 种 策略 被 称 为 无 损 压缩 。 

男 一 种 策略 是 有 损 压 缩 。 有 损 压 缩 方法 具有 更 大 的 压缩 率 ， 但 无 法 完全 恢复 原始 文 
件 。 例 如 ，MP3 音频 压缩 通过 丢弃 绝 大 部 分 人 听 不 到 的 频率 来 压缩 音频 ， 其 压缩 率 大 约 
为 10, 但 是 没 法 恢复 丢弃 的 频率 。JPEG 图 像 压缩 舍弃 了 部 分 人 眼 基 本 会 忽略 的 颜色 信息 
位 ， 当 然 也 没 法 恢复 这 些 原始 的 图 像 位 。 这 些 压缩 方案 使 得 DVD 、 在 线 电影 和 唱片 等 能 
够 以 更 低廉 的 价格 卖 给 消费 者 。 这 些 方法 在 感知 质量 上 的 小 小 损失 ， 对 于 减少 文件 大 小 而 
言 通常 被 认为 是 一 种 很 好 的 折 中 。 


信息 的 转换 


一 个 单纯 的 通信 系统 只 是 简单 地 将 信息 从 一 处 传输 到 另 一 处 ， 但 是 计算 机 会 做 更 多 
的 工作 ， 即 转换 信息 。 转 换 就 带 来 了 更 多 可 能 ， 其 中 最 显著 的 产品 就 是 新 信息 的 出 现 。 简 
单 的 转换 包括 将 一 个 数 平方 、 计 算 至 指定 小 数位 数 、 对 一 列 数字 按照 升序 排列 ， 每 一 
次 转换 都 是 将 一 种 信息 模式 作为 输入 ， 并 创建 一 种 信息 模式 作为 输出 。 

因为 二 进 制 模式 可 以 被 解析 为 数 ， 所 以 一 次 转换 在 数学 上 看 来 就 像 是 一 个 输入 数 到 
输出 数 的 映射 函数 。 能 够 被 机 器 计算 的 函数 被 称 为 可 计算 函数 。 图 灵 和 他 同时 代 的 人 们 用 
这 个 概念 来 定义 计算 。 图 灵 表 示 一 个 简单 的 抽象 计算 机 一 一 图 灵机 ， 足 以 实现 任何 可 计算 
的 函数 ( Turing 1937 )。 图 灵机 遵循 一 个 非常 简单 的 指令 程序 来 实现 这 些 转换 。 因 为 每 一 
条 指令 显然 可 以 被 机 器 实现 ， 那 么 计算 机 转换 二 进 制 的 时 候 并 不 考虑 它们 的 含义 。 这 类 似 
于 香农 所 强调 的 ， 信 道 可 以 被 设计 得 完全 可 靠 并 且 不 考虑 传输 信息 的 含义 。 

当 我 们 稍微 深入 了 解 机 器 如 何 转换 输入 时 ， 就 会 发 现 程序 设计 的 一 个 重要 方面 ， 称 
之 为 含义 保留 (meaning-preserving)。 设 想 两 个 数 a 和 4b 相 加 ， 两 个 数 相 加 意味 着 什么 
呢 ? 这 意味 着 我 们 要 遵循 一 系列 加 法 算法 的 步骤 。 这 个 步骤 包括 连续 对 a 和 4。 的 两 个 对 应 
的 数字 位 相 加 ， 然 后 将 其 进位 结果 传递 到 更 高 位 。 我 们 对 于 属于 |0, 1, 2, =, 9} 中 的 
数字 对 有 明确 的 加 法 规则 ， 并 且 会 产生 进位 0 或 者 1。 当 为 这 个 算法 设计 程序 时 ， 我 们 需 
要 注意 让 每 条 指令 都 能 够 产生 正确 的 加 法 结果 。 如 果 成 功 了 ， 我 们 可 以 相信 机 器 能 够 正确 
做 出 两 个 数 的 加 法 。 若 失败 了 ， 我 们 会 说 机 器 坏 了 。 


换 句 话 说， 设计 过 程 本 身 就 是 将 我 们 脑 中 的 加 法 过 程 转换 为 机 器 执行 加 法 的 指令 模 
式 ， 加 法 的 含义 就 存在 于 机 器 和 其 算法 的 设计 之 中 。 

这 对 于 任何 其 他 的 可 计算 函数 也 是 适用 的 。 我 们 把 大 脑 中 想法 的 具体 含义 转换 成 可 
计算 的 函数 ， 将 它 输出 到 程序 中 ， 从 而 控制 机 融 实 现 这 个 想法 。 这 个 过 程 也 就 是 将 具有 我 
们 想法 含义 的 函数 转变 为 对 机 器 的 设计 。 

从 这 个 角度 看 ， 机 器 和 通信 系统 不 考虑 二 进 制 数据 含义 进行 信息 处 理 的 概念 有 些 站 
不 住 脚 。 算 法 和 机 器 被 工程 师 和 程序 员 植 人 了 含义 ， 我 们 设计 机 器 从 而 使 得 每 个 计算 步骤 
和 输出 都 是 我 们 想 要 的 含义 ， 假 设 输入 也 具有 我 们 想 要 的 含义 。 仔 细 精 确 的 设计 就 是 为 了 
不 用 担心 机 器 曲解 我 们 想 要 表达 的 含义 。 

计算 机 将 计算 函数 和 信道 结合 ， 一 个 信道 将 输入 送 到 执行 计算 函数 的 机 器 ， 另 一 个 
信道 将 输出 送 到 目的 地 。 这 种 情况 下 信道 和 计算 机 似乎 只 完成 了 运输 和 操作 信息 位 的 工 
作 。 然 而 从 人 类 的 角度 来 看 ， 计 算 带 来 了 新 的 信息 ， 无论 计算 机 输出 比 输入 更 多 还 是 更 
少 的 信息 。 例 如 ， 前 文 提 到 的 一 个 计算 站 的 函数 ， 在 输入 一 个 三 位 数 “900” 时 能 生成 
900 位 的 m 的 值 ， 输 出 扩展 了 300 倍 的 信息 量 。 一 个 排序 函数 的 输出 和 输入 具有 同样 的 
位 数 ， 但 是 具有 不 同 的 顺序 。 一 个 平均 函数 能 够 计算 出 少量 的 数字 来 代表 大 量 数据 的 平 
均值 。 

数字 表示 和 机 器 操作 都 依赖 于 物理 过 程 ， 每 个 机 器 操作 都 需要 花费 少量 的 时 间 和 功 
耗 。 有 些 我 们 希望 计算 的 函数 需要 花费 太 多 的 步骤 以 至 于 在 有 生 之 年 无 法 等 到 机 器 返回 结 
果 。 计 算 所 需 的 物理 处 理 严重 限制 了 我 们 能 够 计算 的 内 容 。 

计算 的 逻辑 也 会 带 来 限制 ， 其 中 最 有 名 的 就 是 我 们 想 计算 但 无 法 计算 的 函数 。 图 灵 
在 1936 年 提 到 了 停机 问题 一 一 不 存在 一 个 程序 ， 可 以 检查 任何 程序 并 且 判 断 其 在 给 定 输 
人 上 是 否 包含 无 限 循环 。 一 个 现在 的 实例 是 恶意 软件 检测 ， 即 不 存在 一 个 程序 能 够 检测 任 
意 给 定 程序 是 否 谋 入 了 恶意 软件 检测 程序 。 我 们 在 第 6 章 检验 计算 的 物理 和 逻辑 局 限 性 的 
时 候 ， 还 会 再 回 到 这 个 话题 。 

即使 当 我 们 将 注意 力 限制 在 可 以 计算 并 且 很 快 返回 有 用 结果 的 函数 ， 也 可 以 发 现 一 
些 有 趣 的 问题 。 当 一 个 函数 在 计算 我 们 没有 见 过 的 数据 位 时 ， 这 些 数据 位 是 新 的 信息 吗 
( 见 图 3.6 ) ? 或 者 它们 只 是 现 有 信息 的 结果 ? DNA 包含 信息 吗 ? 很 多 生物 学 家 认为 包含 。 
若 DNA 是 一 种 信息 ， 那 它 的 信息 源 和 接收 端 又 是 什么 呢 ? 如 果 对 DNA 解码 ， 我 们 能 得 
到 什么 信息 呢 ? 解码 的 DNA 可 以 用 来 寻找 治愈 遗传 疾病 的 治疗 方案 ， 也 可 以 识别 犯罪 现 
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场 的 行为 人 。 将 DNA 与 数据 库 匹 配 仅仅 揭示 了 现 有 的 信息 还 是 生成 了 新 的 信息 呢 ? 经 典 
的 信息 论 无 法 回答 这 样 的 问题 。 
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3.6 BARZA BEY CE RAE EAn TB 级 数据 并 传输 到 地 球 ， 这 些 数据 再 被 处 理 成 为 图 
像 。 计 算 理论 将 这 个 图 像 处 理 过 程 描述 为 方程 Y= F(X )， 其 中 输入 数据 在 孔 数 计算 后 产 
生 输 出 图 像 了 。 这 个 机 器 实现 的 功能 (将 信号 发 给 它 ， 它 又 生成 信号 ) 不 依赖 于 望远镜 传输 
的 信息 的 含义 ,然而 人 类 看 到 了 输出 的 是 一 张 美丽 的 图 片 一 一 船 底 座 星云 的 实际 展示 (图片 
来 源 : NASA) 


交互 系统 


许多 计算 机 程序 是 交互 系统 : 接收 新 的 输入 ， 在 很 多 点 上 生成 新 的 输出 ， 除 非 被 干 
预 或 者 程序 崩 演 ， 它 们 可 能 会 无 休止 地 做 这 些 工 作 。 交 互 系 统 无 处 不 在 ， 每 一 个 操作 系统 
都 是 一 个 交互 系统 ， 比 如 一 辆 汽车 的 GPS 系统 、Facebook、 一 个 在 线 商 家 的 服务 器 ， 或 
者 互联 网 的 域名 解析 系统 。 互 联网 本 身 也 是 一 个 全 球 的 数据 交换 和 协调 行动 的 交互 系统 。 
交互 系统 的 一 个 显著 特征 就 是 持续 不 断 地 运行 ， 同 时 没有 程序 结束 。 相 反 ， 艺 数 系统 在 计 
算出 答案 后 ， 程 序 结束 运行 。 

多 年 来 ， 计 算 机 科学 家 们 激烈 地 争论 交互 计算 是 否 比 函数 计算 更 强大 ( Goldin et al. 
2010 )。 近 年 来 专家 们 一 致 同意 交互 式 计算 更 加 强大 。 作 为 当代 的 难题 ， 如 何 有 语义 地 为 
数字 图 像 打 标签 解释 了 这 个 原因 ， 因 为 这 个 问题 的 解决 方法 依赖 于 交互 : 游戏 构造 了 人 机 
交互 来 实现 人 和 机 器 都 无 法 单独 完成 的 功能 ( 见 图 3.7 )。 交 互 系统 所 生成 的 输出 是 已 知 机 
器 无 法 做 到 的 。， 
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图 3.7 在 2004 年 卡耐基 梅 隆 大 学 (CMU) AY Luis von Ahn 和 Laura Dabbish 发 表 的 一 篇 论文 中 ， 
描述 了 一 个 新 颖 的 电脑 游戏 ESP。 在 游戏 中 ， 玩 家 被 两 两 分 组 ， 给 予 同 一 张 图 片 并 要 求 用 
单词 来 描述 这 张 图 片 的 内 容 ， 游 戏 的 目标 是 找到 同伴 (不 知道 也 看 不 到 ) 也 使 用 过 的 相同 单 
词 。 公 共 的 单词 就 成 为 这 张 图 片 被 搜索 时 的 新 标签 。 游 戏 将 人 和 电脑 组 队 去 计算 一 个 图 片 
识别 函数 ， 没 有 人 知道 如 何 单独 使 用 计算 机 进行 计算 。 像 其 他 函数 一 样 ， 这 个 函数 也 转换 
信息 ， 不 过 这 个 含义 现在 是 由 玩家 来 交互 地 完成 


fe RFI 

在 上 面 的 讨论 中 ， 我 们 注意 到 一 些 关 于 信息 的 看 似 矛 盾 的 结论 : 

1) 工程 师 设计 的 通信 系统 能 够 在 不 理解 信息 含义 的 情况 下 运行 ,那么 人 类 信息 接收 
者 如 何 收 到 含义 呢 ? 

2 ) 工程 师 所 设计 的 计算 机 系统 能 够 在 不 了 解 程序 与 二 进 制 模 式 数 据 含义 的 情况 下 转 
换 信息 ， 那 么 这 些 系统 如 何 生成 新 的 信息 呢 ? 

3 ) 程序 员 设 计 的 程序 能 够 在 对 其 数据 无 知 的 情况 下 运行 ， 那么 人 类 用 户 是 基于 什么 
有 意义 地 解释 程序 的 输出 呢 ? 

4) 建立 连接 (如 放置 一 个 网 页 链接 [Berners-Lee 2000]) 会 产生 新 的 信息 吗 ? 

5 ) 如 果 设 计 一 个 计算 机 程序 来 生成 欺骗 性 信息 ， 那 它 的 输出 还 算是 信息 吗 ? 

6 ) 加 密 消 息 中 的 信息 又 在 哪里 ? 

7) 如 果 一 个 计算 机 程序 完成 了 新 的 科学 发 现 ， 那 么 它 是 创造 了 新 的 信息 还 是 仅仅 传 
递 了 人 类 不 了 解 的 已 知 信息 呢 ? 
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信息 学 常见 的 理论 和 观点 都 不 能 回答 这 些 问题 。 比 如 ， 我 们 说 符号 “携带 ”信息 ， 这 只 
会 引出 新 的 问题 ， 携 带 的 信息 在 哪里 ? 如 何 骨 入 和 提取 信息 ? 另 一 个 例子 是 嵌入 在 社会 传统 
中 的 含义 通过 机 器 的 输出 所 触发 ， 这 种 含义 只 会 有 助 于 引发 第 三 个 问题 。 还 有 另 一 个 例子 是 
“标记 对 象 ”模型 (Rocchi 2012 )， 该 模型 将 标记 和 含义 将 结合 ， 但 仅 对 显 式 信 息 有 效 。 

含义 保留 的 变换 解决 了 所 有 的 悖 论 。 人 们 有 意 设 计 出 软件 程序 来 支持 实践 、 建 立 连 
接 、 隐 藏 信息 或 者 寻找 新 的 信息 ， 这 些 含义 是 设计 师 设 计 机 器 反馈 的 所 有 结果 ， 因 此 人 类 
用 户 会 认为 这 是 预期 的 反应 。 当 某 个 机 器 没有 给 出 预期 的 行为 时 ， 设 计 师 和 用 户 都 会 认为 
它 损 坏 了 。 

这 些 悖 论 总 会 在 初期 显现 ， 因 为 计算 机 科学 家 总 希望 机 器 拟人 化 ， 比 如 ， 我 们 说 一 
个 机 器 能 够 理解 它 的 输入 ， 或 者 机 器 对 于 输出 很 有 创造 性 。 而 当 别 人 深入 了 解 我 们 的 程序 
和 机 器 时 ， 他们 只 能 看 到 机 械 步 骤 。 这 些 步骤 中 他 们 看 不 到 “理解 ”甚至 “创造 性 ”。 理 
解 和 含义 来 源 于 设计 者 ， 是 他 们 设计 了 机 器 的 模式 并 在 使 用 时 产生 预期 的 含义 。 


信息 和 发 现 


当 我 们 说 计算 机 发 现 了 新 的 模式 时 我 们 想 说 明 什 么 呢 ? 设想 一 个 程序 能 够 发 现 数据 
的 趋势 ， 首 先 提供 一 组 在 以 往 性 能 实验 中 观察 到 的 输入 输出 对 (x，y) 给 程序 ， 然 后 利用 
统计 回归 ， 程 序 找到 了 最 好 的 参数 a 和 4b 表示 一 条 直线 来 拟 合 这 个 数据 : y = ax + b, 
序 的 输出 是 直线 的 常规 表达 。 这 个 输出 对 于 了 解 如 何 利用 直线 进行 预测 的 用 户 是 有 意义 
的 。 很 容易 设计 另 一 个 程序 来 使 用 具有 参数 g 和 4b 的 直线 来 预测 y， 而 y 是 由 新 的 输入 x 
生成 的 。 

这 就 是 一 个 设计 师 使 用 数学 知识 从 一 系列 数据 中 计算 最 佳 拟 合 参数 的 过 程 ， 计 算 中 
的 步骤 是 机 械 的 ， 输 出 对 于 那些 了 解数 据 中 直线 趋势 模型 的 人 们 是 有 意义 的 。 这 些 意义 来 
源 于 设计 师 ， 而 不 是 数据 的 处 理 。 

对 于 不 了 解数 据 中 直线 模型 趋势 的 人 ， 也 就 不 知道 输出 的 含义 。 但 是 这 并 不 意味 着 
输出 的 含义 是 主观 的 ， 只 意味 着 设计 师 没 有 打算 让 程序 对 这 些 用 户 产 生 任 何 意义 。 

在 20 世纪 80 年 代 ， 研 究 者 开始 使 用 强大 的 计算 机 筛选 大 数据 集 来 试图 发 现 一 些 模 
式 。 他 们 使 用 贝 叶 斯 (Bayesian) 推理 (这 是 一 个 复杂 的 数据 分 析 方 法 ) 来 推算 最 有 可 能 
产生 数据 的 一 系列 条 件 。 贝 叶 斯 推理 基于 贝 叶 斯 条 件 概率 统计 公式 : 





P(E|H) + P(H) 


P(H|E) = PCE) 


它 说 明 的 是 给 定 证 据 E， 假设 五 的 概率 就 是 : 给 定 假设 五 后 该 证 据 EE 的 概率 ， 乘 以 
假设 五 的 概率 ， 再 除 以 证 据 E 的 概率 。 图 3.8 给 出 了 一 个 简单 的 示例 ， 医 生 已 知 病人 头 
疼 ， 试 图 诊断 他 是 否 患 有 流感 。 

这 种 情况 下 的 发 现 是 一 个 新 的 假设 。 程 序 能 够 生成 一 系列 假设 ， 然 后 根据 手中 已 
知 的 情况 ， 按 照 贝 叶 斯 定律 计算 每 一 个 假设 的 概率 ， 把 其 中 最 有 可 能 的 假设 作为 这 个 

在 这 种 情况 下 ， 设 计 者 结合 贝 叶 斯 定律 和 搜索 方法 ， 在 给 定数 据 下 找到 最 大 可 能 的 
假设 。 这 个 程序 的 输出 就 是 那些 明白 假设 和 数据 “含义 ”的 用 户 所 预期 的 ， 用 户 将 决定 是 
否 将 这 些 假 设 视 作 一 个 发 现 。 





图 3.8 韦 恩 图 演示 了 如 何 利用 贝 叶 斯 定律 评估 一 个 很 难 判断 的 假设 。 在 所 有 人 口 的 集合 K 中 包含 
一 个 子 集 ， 代 表 患 有 流感 的 人 ,还 有 一 个 子 集 且 ,代表 患 有 头疼 的 人 。 医 生 看 到 一 个 病人 
抱怨 头疼 ， 担 心 自 己 患 上 流感 。 根 据 贝 叶 斯 定律 P(FIH) = P(HIF)* P(F)/ P(H)。 医 学 数据 告 
诉 医生 ， 患 有 头疼 的 概率 P(A) = 0.4, 患 有 流感 的 概率 P(F) = 0.2， 在 患 有 流感 的 人 中 患 有 
头疼 的 概率 是 P(HIF) = 2 / 3， 因此 PRI = (2 /3)* 0.2 /40.4 = 1/3， 即 三 分 之 一 。 在 没有 
任何 信息 的 时 候 ， 患 有 流感 的 概率 是 0.2， 但 若 已 知 患 头疼 ， 患 有 流感 的 概率 则 上 升 到 0.33 
在 经 典 的 信息 论 中 ,我 们 说 贝 叶 斯 推理 发 挥 作用 ， 是 通过 已 知 消息 源 的 数据 来 决定 
消息 源 的 内 容 。 在 消息 通信 中 ， 香 农 合 理 假设 消息 源 的 内 容 为 先 验 信息 。 在 科学 发 现 中 ， 
消息 源 中 包含 的 一 系列 概率 最 初 是 未 知 的 ， 推 理 过 程 使 得 消息 和 它们 的 概率 可 知 。 贝 叶 斯 
推理 是 一 个 自动 将 消息 源 中 的 观察 数据 转换 为 消息 源 内 容 的 方法 。 
六 gt 


=A 


自古 以 来 ， 人 类 就 开始 编码 信号 ， 使 其 可 以 在 不 同 的 媒介 中 进行 传输 。 在 20 世纪 40 
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年 代 ， 香 农 的 信息 论 提出 了 四 大 准则 : 
o 每 一 个 通信 系统 都 可 以 被 建 模 成 一 个 噪声 通道 ， 其 携带 着 被 编码 的 信号 ， 该 信号 
表达 着 消息 源 中 的 消息 。 
o 消息 源 的 灶 决 定 了 消息 源 最 短 的 可 解析 编码 的 长 度 ， 哈 夫 曼 编码 是 和 业 一 致 的 
PAGES (fee ANT —T EH) 
© 充分 元 余 的 比特 位 能 够 添加 到 任意 编码 中 ， 以 此 来 克服 信道 中 的 噪声 ， 并 且 能 同 
时 保证 百分之百 准确 的 接收 。 
© 利用 更 短 的 编码 替换 模式 ,文件 能 够 被 压缩 到 更 小 的 尺寸 。 
这 些 原则 使 得 通信 和 计算 机 工程 师 能 够 设计 数字 系统 ， 这 些 系统 在 传输 过 程 中 不 会 
丢失 信息 ， 并 且 噪 声 引入 的 错误 也 可 以 被 消除 。 
一 些 不 理解 香农 理论 的 企业 家 认为 “比特 而 非 原子 ”的 理论 能 够 预示 一 个 激增 的 新 
兴 经 济 体 ， 但 他 们 的 梦想 是 不 会 实现 的 ， 因 为 真正 的 通信 和 计算 系统 的 基础 来 源 于 将 数据 
[56] 记录 表示 成 物理 信号 和 状态 ， 而 计算 和 传输 需要 消耗 时 间 和 能 量 。 我 们 在 计算 上 花费 了 很 
多 能 量 : 互联 网 的 连接 点 和 数据 中 心 消耗 了 世界 近 6% 的 电力 。 我 们 不 能 寄 希 望 于 假定 角 
通过 比特 而 不 是 原子 来 解决 棘手 问题 就 忽略 了 这 个 问题 : 比特 背后 的 原子 也 是 很 重要 的 。 
正如 摩尔 定律 所 预示 ， 我 们 存储 信息 的 能 力 成 指数 增加 ， 我 们 阐明 信息 含义 的 压力 
也 在 不 断 地 增加 ， 而 香农 信息 论 的 定义 无 法 解决 这 个 问题 。 这 看 似 是 个 悖 论 : 系统 如 何在 
不 考虑 信息 含义 的 情况 下 处理 信息 ， 同 时 还 能 在 用 户 的 体验 中 产生 含义 。 
含义 保留 的 变换 融合 了 机 器 的 无 意义 机 制 和 能 让 机 器 产生 含义 的 人 类 经 验 。 程 序 设 
计 师 编制 指令 ， 从 而 能 在 用 户 群 体 产生 预期 含义 的 输出 ; 每 一 条 指令 的 执行 ， 逐 步 将 部 分 
计算 结果 接近 预期 的 输出 。 让 我 们 为 程序 设计 师 这 个 角色 鼓掌 ， 是 他 们 给 了 我 们 有 意义 的 
软件 和 硬件 。 


致谢 
这 一 章 改 编 自 Peter Denning 和 Tim Bell 的 “信息 悖 论 ”(2012 )， 其 发 表 于 《美国 科 
[57] 学 家 》。 
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Great Principles of Computing 


Lote 





当 一 个 人 拥有 了 纸 、 笔 和 橡皮 ， 并 且 遵 从 某 种 规则 ， 就 成 为 一 台 广 义 上 的 计算 机 。 
— Alan Turing 
计算 机 可 能 是 一 种 真正 意义 上 的 人 性 化 驱动 力 。 机 器 完成 的 工作 使 得 某 种 生活 成 为 
可 能 ， 而 人 类 做 的 工作 则 使 得 生活 变 得 更 有 意义 。 


—Isaac Asimov 


计算 机 科学 家 喜欢 对 事物 进行 抽象 化 。 抽 象 是 一 种 思维 模型 ， 它 抓 住 事物 的 一 些 最 
本 质 特征 ， 而 忽略 其 他 所 有 不 太 重 要 的 特征 。 计 算 机 科学 家 经 常 将 编程 描述 为 设计 一 个 层 
次 化 抽象 的 过 程 ， 它 由 一 组 “抽象 对 象 ” 和 用 来 操作 这 些 “ 抽 象 对 象 ”的 一 组 特定 函数 构 
成 。 这 种 说 法 非常 流行 ， 以 至 于 计算 机 科学 常常 被 人 们 吹捧 为 最 擅长 于 进行 抽象 的 学 科 。 

和 其 他 领域 常见 的 各 种 数学 抽象 相 比 ， 计 算 抽象 有 一 个 重要 的 差异 : 计算 抽象 可 以 
执行 操作 。 与 此 同时 ,“ 抽 象 ”这 个 术语 也 很 容易 让 我 们 忽略 一 个 事实 : 计算 操作 是 要 通 
过 由 程序 控制 的 实际 物理 过 程 来 实现 的 。 

我 们 以 音乐 为 例 加 以 说 明 。 在 计算 机 中 ,一 首 “ 歌 曲 ” 是 通过 一 个 MP3 格式 的 文件 
来 表示 的 ， 它 包含 了 出 版 商 提供 的 这 首 音 乐 的 数字 化 信息 。 当 我 们 要 听 这 首 歌曲 时 ， 可 以 
对 这 个 文件 执行 一 个 叫做 “播放 ”( play) 的 程序 。“ 播 放 ” 程 序 读 取 存储 于 磁盘 上 的 这 个 
MP3 文件 ， 将 其 中 的 数 百 万 个 比特 转化 成 电信 号 ， 然 后 传输 到 耳机 。 在 那里 ， 扬 声 顺 的 
电路 会 驱动 隔膜 产生 振动 ， 从 而 发 出 声音 。 从 抽象 的 层面 来 看 ， 播 放 程序 和 MP3 文件 都 
是 单独 的 对 象 : 对 “歌曲 ”应 用 “播放 ”， 你 就 能 听 到 音乐 。 上 述 过 程 的 具体 实现 是 非常 
复杂 的 ， 它 涉及 大 量 步骤 ， 每 一 个 步骤 都 依赖 于 一 个 具体 的 物理 过 程 。 

本 章 讨 论 如 何 从 物理 上 来 组 织 机 器 ， 使 得 它 可 以 计算 函数 (function)。 机 器 所 能 执 
行 的 每 步 操作 都 被 表示 为 逐个 单独 的 指令 (instruction)， 例 如 对 两 个 数 求 和 。 一 个 程序 
(program) 就 是 按 某 种 方式 精确 排列 好 的 一 串 指令 ， 它 使 得 机 器 可 以 得 出 我 们 想 要 计算 的 
函数 的 数值 。 指 令 和 数据 都 以 二 进 制 的 形式 被 编码 保存 于 存储 器 中 。 当 指令 序列 被 读 人 到 
处 理 器 (processor) 中 ， 它 会 驱使 硬件 进行 操作 ， 将 输入 数据 转换 成 最 后 的 输出 数据 。 

在 电子 计算 机 发 展 的 最 初 阶段 ， 程 序 员 都 是 直接 用 二 进 制 形式 来 编写 代码 ， 并 按 顺 
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序 排列 到 纸 带 上 或 者 卡片 上 。 随 后 ， 编 程 语 言 很 快 取代 了 二 进 制 编码 ， 因 为 使 用 编程 语言 
可 以 大 幅 降低 出 错 的 可 能 性 。 通 过 采用 一 个 叫做 编译 器 的 特殊 程序 ， 人 们 把 通过 编程 语言 
编写 的 程序 自动 翻译 成 二 进 制 的 机 器 代码 。 在 下 一 章 介 绍 编程 的 时 候 ， 我 们 会 讨论 一 个 编 
译 带 是 如 何 完成 这 些 工作 的 。 

计算 机 中 各 个 部 件 的 组 织 方式 ， 通常 被 称 为 计算 机 体系 结构 '。 一 台 计 算 机 的 体系 结 
构 规 格 涵盖 了 用 于 执行 指令 的 中 央 处 理 器 (CPU)， 用 于 存放 程序 代码 和 数据 的 随机 访问 
存储 器 (RAM)“， 以 及 在 存储 器 中 用 来 组 织 程序 各 个 部 分 的 数据 结构 。 


机 器 


机 器 是 一 种 可 以 利用 能 量 来 执行 特定 任务 的 装置 。 机 器 通常 以 机 械 的 、 化 学 的 、 热 
力 的 或 者 电子 的 方式 来 驱动 。 电 子 机 器 是 一 种 通过 电力 驱动 并 且 不 包含 运动 部 件 的 机 器 。 
这 样 的 机 器 包括 收音 机 、 电 视 、 手 机 以 及 平板 电脑 等 。 

自动 机 是 一 种 能 自我 进行 操作 的 机 器 。 时 钟 上 的 布谷 鸟 ， 也 曾经 一 度 被 视 为 一 种 自 
动机 。 同 样 ，18 世纪 末期 的 Turk 国际 象棋 机 也 可 算是 一 种 自动 机 (图 4.1)。 从 20 世纪 
40 年 代 起 ,计算 机 科学 家 开始 将 自动 机 作为 一 种 计算 机 的 抽象 数学 模型 。 到 20 世纪 50 
年 代 ， 科 学 家 相信 磐 入 在 软件 或 者 机 器 人 中 的 自动 机 拥有 自我 思考 的 潜力 。 

用 于 辅助 计算 的 机 器 可 以 追溯 到 几 千 年 前 。 早 在 公元 前 2700 多 年 前 ， 美 索 不 达 米 
亚 、 古 埃及 、 波 斯 、 罗 马 和 古 中 国 的 商人 就 开始 使 用 算盘 来 进行 求 和 。 古 希腊 人 记载 了 如 
何 通过 测量 影子 来 测量 树 的 高 度 ， 即 通过 计算 一 根 已 知 长 度 的 木 棍 的 影子 和 树 的 影子 两 者 
之 间 的 长 度 比例 ， 可 以 计算 出 树 的 高 度 。 从 某 种 意义 上 看 ， 这 根木 棍 以 及 这 个 计算 过 程 就 
是 一 个 简单 的 计算 设备 。 而 男 一 种 测量 工具 一 一 滑动 尺 ， 则 在 John Napier 提出 对 数 概念 
之 后 的 1620 年 前 后 被 发 明 出 来 。 常 被 大 家 戏称 为 “滑动 的 棍子 ”的 滑动 尺 ， 是 一 种 标准 
的 计算 机 器 。 它 一 直 被 工程 师 广泛 使 用 ， 直 到 20 世纪 70 年 代 电 子 计算 机 出 现 之 后 才 被 
取代 。1642 年 ，Blaise Pascal 发 明了 一 台 可 以 进行 数字 加 减法 的 机 器 ， 并 提出 了 通过 反复 
进行 加 减 运算 来 实现 乘法 和 除法 的 算法 。Charles Babbage 设计 了 一 种 差分 机 器 (1822 一 
1842 )， 用 来 计算 常用 数学 函数 的 数值 表 。 那 时 ,已 有 的 数值 表 都 是 通过 繁 匈 的 手工 计算 
得 到 的 ， 数 据 中 常常 含有 错误 ， 这 给 当时 的 航海 家 和 其 他 使 用 者 带 来 了 极 大 的 风险 。1911 
年 ，Marchant 公司 开始 销售 由 齿轮 、 滑 轮 和 杠杆 构成 的 ， 能 完成 加 减 乘 除 运 算 的 机 械 计 
算 器 。1922 年 ， 德 国 工程 师 Arthur Scherbius 发 明了 一 台 名 为 Engima 的 用 来 生成 密码 的 
机 右 。 波 兰 人 在 1932 年 破解 了 密码 ， 并 将 这 些 信息 传递 给 了 英国 人 ,英国 人 利用 这 些 
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言 息 在 20 世纪 40 年 代 初 制造 了 名 为 Bletchley 的 密码 破译 机 。 在 20 世纪 20 年 代 后 期 ， 
Vannevar Bush 发 明了 差分 分 析 器 ， 通 过 机 械 的 求 积 法 来 求解 微分 方程 。 


图 4.1 





Py sarge va ome 
De Bon fe tne ad be 


awon) , Barilan PG Meaty. fo: 


affent . (E Kucur Mehecs tel. guon te lo wort t pendant de peu 


Karl Gottlieb van Windisch 在 他 1784 年 出 版 的 书 《 Inanimate Reason 》 中 描述 了 Turk, — 
人 台 可 以 下 国际 象棋 的 机 器 。 在 1770 年 之 后 的 长 达 84 年 里 ， 这 人 台 机 器 的 历任 形形色色 的 主 
人 都 对 外 宣称 这 是 一 台 可 以 和 任何 人 下 象棋 的 自动 机 器 ， 而 事实 上 它 也 确实 赢得 了 大 多 数 
的 比赛 。 然 而 这 却 是 一 场 精 心 制造 的 骗局 。 事 情 的 真相 是 ， 一 名 国际 象棋 高 手 就 躲 在 这 人 台 
机 器 的 柜子 里 ， 通 过 镜子 来 观察 棋盘 上 的 棋子 ， 然 后 通过 杠杆 来 操作 自己 的 棋子 。 这 人 台 机 
器 给 人 的 错觉 ， 恰 好 迎合 了 人 们 内 必 深 处 的 某 种 潜意识 ， 抑 或 是 某 种 恐惧 ， 即 人 类 的 大 脑 
只 是 一 台 机 器 而 大 多 数 的 智力 行为 其 实 都 只 是 机 械 的 运动 而 已 。 在 1997 年 ，IBM 制造 的 国 
际 象 棋 专 用 计算 机 巨 蓝 (Big Blue) 打败 了 国际 象棋 大 师 Garry Kasparov。 人 们 对 此 的 反应 
并 不 是 认为 机 胡 拥 有 了 智能 ， 而 是 计算 机 比 Kasparov 搜索 得 更 快 而 已 


在 第 二 次 世界 大 战 期 间 ， 美 国 军 方 在 阿 伯 丁 试验 场 委 任 了 由 女性 组 成 的 一 些小 组 来 计 
算 火炮 的 弹道 数值 表 。 炮 手 们 利用 这 张 表 ,根据 风速 和 炮击 目标 的 范围 ， 来 确定 最 佳 的 身 
击 方向 和 和 角度。 根据 写 在 纸 上 的 程序 ， 计 算 小 组 的 女 队 员 操 作 机 械 计算 器 (比如 之 前 提 到 
的 Marchant 计算 器 ) 来 算出 这 些 弹道 数值 表 。 手 工 计算 很 容易 出 错 ， 而 且 随 着 新 的 军械 不 
断 被 设计 出 来 ， 人 工 计算 再 也 无 法 满足 大 量 的 弹道 数值 表 计 算 ， 因 此 美国 军 方 决 定 采用 电 
子 设备 来 替代 手工 计算 。1943 年 ， 在 宾夕法尼亚 大 学 ， 美国 军 方 提出 了 建造 第 一 台 计 算 
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BL (BN ENIAC) 的 计划 。ENIAC 在 计算 弹道 数值 时 ， 运 算 速 度 可 以 比 手工 计算 快 一 千 倍 。 
虽然 这 人 台 机 器 直到 战 后 的 1946 年 才 建成 ， 但 是 从 那 以 后 ， 军 方 就 开始 大 量 地 使 用 计算 机 。 

有 趣 的 是 ， 在 20 世纪 20 年 代 “ computer” 这 个 词语 并 不 代表 计算 机 ， 而 是 指 计算 
hh, 一 种 从 事 数值 计算 行业 的 人 。 因 此 ， 当 第 一 台电 子 计算 机 出 现时 ， 它 被 命名 为 “自动 
计算 机 ”， 以 便 和 计算 员 区 分 开 来 。20 世纪 40 年 代 的 第 一 台电 子 计算 机 ， 首 字母 缩写 以 
“-AC” 结 尾 ， 表 达 的 就 是 这 个 含义 。 

1937 年 ， 图 灵 将 计算 机 定义 为 一 种 可 以 进行 数学 计算 的 机 器 。 并 且 ， 他 发 现 了 一 种 
无 法 被 任何 计算 机 计算 出 结果 的 函数 。 他 使 用 “可 计算 性 ”这 个 术语 来 刻画 一 个 函数 是 否 
能 够 通过 计算 机 来 进行 计算 。 对 于 一 个 函数 ， 如 果 存 在 一 个 有 限 的 指令 集合 ， 当 输入 任何 
数值 时 都 能 够 生成 对 应 的 输出 值 ( 见 图 4.2 )， 这 个 函数 就 称 为 是 可 计算 的 。 例 如 ， 加 法 是 
可 计算 的 ， 因 为 我 们 可 以 给 出 一 个 有 限 的 指令 序列 ， 对 于 任何 给 定 的 x 和 y, 算出 这 两 个 
数 之 和 x +y。 在 图 录 时 代 ， 一 个 没有 得 到 回答 的 数学 问题 是 ， 如 何 表 示 所 有 可 计算 的 函 
数 的 集合 。 我 们 将 在 第 6 章 中 更 加 深入 地 讨论 这 个 问题 。 








X 计算 机 Y 


go 

图 4.2 计算 机 是 这 样 一 种 机 器 ， 它 读 取 以 二 进 制 表示 的 作为 输入 ， 经 过 计算 之 后 输出 以 二 进 制 
表示 的 结果 7 了。 计算 机 是 由 指令 来 控制 的 ， 而 这 些 指令 被 专门 设计 用 于 计算 特定 的 函数 下。 
当 一 个 信号 到 达 图 中 的 输入 “ go” 时 ,计算 机 开始 工作 。 经 过 一 段 时 间 运 行 之 后 ， 计 算 机 
输出 结果 了 = F(X) 并 停止 。 计算机 完成 计算 并 停止 所 需要 的 运行 时 间 的 长 短 ， 取 决 于 所 计 
算 的 函数 和 程序 实现 。 有 的 程序 可 能 包含 无 限 循 环 ， 这 会 导致 计算 机 无 休止 地 工作 下 去 。 
我 们 可 以 定义 一 个 函数 HF, X), EREMAN XIT, HF 如 果 能 够 完成 运算 并 停止 就 输 
出 1; 反之 ， 则 输出 0。 图 灵 证 明了 这 个 函数 万 是 无 法 被 任何 计算 机 实现 的 





图 灵 认 为 ， 用 来 计算 任何 可 计算 问题 的 每 一 种 计算 算法 ， 都 是 建立 在 一 些 非常 基本 
的 操作 之 上 的 ， 例 如 读 取 符号 、 根 据 读 取 的 内 容 修 改 控制 状态 、 记 录 符号 。 他 创建 了 一 种 
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抽象 的 机 器 模型 ， 后 来 被 称 为 图 灵机 。 图 灵机 包含 一 个 可 以 在 一 条 无 限 长 的 纸 带 上 游 走 的 
控制 单元 ， 它 可 以 在 磁带 上 的 格子 内 写 人 和 读 出 符号 。 这 个 控制 单元 的 更 具体 行为 ， 实 
际 上 是 由 机 器 的 程序 来 规定 的 。 机 器 的 程序 可 以 根据 需要 ， 通 过 使 用 循环 来 实现 一 些 步 又 
的 反复 执行 。 同 时 ， 图 灵 还 描述 了 一 种 广义 的 机 器 ， 它 能 够 模拟 任何 其 他 的 图 灵机 在 给 定 
程序 下 的 行为 。 最 后 ， 图 灵 还 证 明 ， 具 有 完备 定义 但 不 可 计算 的 函数 是 确实 存在 的 。 比 如 ， 
确定 一 个 图 灵机 是 否 能 够 停机 (而 不 进入 死 循环 )， 就 是 一 个 不 可 计算 的 问题 。 和 图 灵 处 在 
同一 时 期 的 几 位 科学 家 也 设计 出 了 几 种 其 他 的 计算 机 模型 ， 并 证 明了 它们 和 图 灵机 是 等 价 
的 。 但 是 ， 只 有 图 灵 的 设计 最 后 成 为 大 家 公认 的 计算 机 参考 模型 ， 因 为 图 灵机 最 大 程度 地 
模拟 了 真实 电子 计算 机 的 工作 方式 ， 特 别 是 处 理 器 (控制 单元 ) 和 存储 器 ( 纸 带 )。 

计算 机 通常 被 定义 成 这 样 一 种 机 器 ， 它 可 以 将 输入 转化 为 输出 ， 然 后 停止 。 这 种 定 
义 其 实 并 不 能 反映 计算 机 的 全 部 用 途 。 实 际 上 ， 计 算 机 和 外 界 的 交互 是 很 普遍 的 。 一 台 具 
有 交互 功能 的 机 器 ， 不 断 地 接收 到 一 些 输 入 ， 并 生成 对 应 的 结果 进行 输出 ， 永 不 停止 。 我 
们 在 第 3 章 中 提 到 ， 一 台 与 人 类 交互 协作 的 机 器 ， 能 够 计算 一 些 非 交互 式 计 算 机 所 无 法 计 
SF AY PRK 


可 以 计算 的 机 器 


计算 机 是 由 程序 控制 的 一 种 机 器 ， 它 根据 所 给 的 一 个 输入 ， 计 算出 一 个 输出 。 接 下 
来 我 们 进一步 来 看 看 ， 如 何 能 够 建造 一 台 按 这 种 方式 来 工作 的 机 器 。 

存储 程序 的 计算 机 ( stored-program computer)， 是 一 种 实现 了 一 组 指令 的 电子 硬件 设 
备 。 指 令 (instruction) 是 指 这 种 电子 设备 能 够 执行 的 一 个 单独 的 算术 操作 或 者 逻辑 操作 。 
操作 (operation) 是 指 最 简单 最 基本 的 一 种 函数 。 最 典型 的 操作 一 般 读 取 两 个 输入 ， 并 产生 
一 个 输出 。 例 如 ， 加 法 (ADD) 操作 是 对 两 个 数 求 和 ， 相 等 判定 (EQ) 操作 是 比较 两 个 数 
是 否 相 等 ， 因 此 ADD(3, 5) = 8, EQ(3, 5) = 0(false)。 指 令 集合 中 通常 还 包含 分 支 指令 (branch 
instruction)， 这 种 指令 用 来 控制 当前 指令 结束 之 后 ， 计 算 机 跳 转 到 何 处 去 运行 下 一 条 指令 。 

程序 (program) 就 是 一 串 指令 ， 它 是 根据 需要 计算 的 函数 按照 特定 的 设 定 来 排列 的 。 
而 编程 (programming) 则 是 一 门 设 计 程 序 并 验证 程序 能 够 正确 运行 的 艺术 。 

计算 系统 (computing system) 是 由 计算 机 和 运行 于 计算 机 之 上 的 程序 组 合 而 成 。 计 算 机 
程序 指挥 计算 机 硬件 来 进行 函数 的 运算 。 我 们 也 可 以 说 ， 计 算 机 系统 进行 了 函数 的 运算 。 

为 了 实现 这 一 切 ， 计 算 机 系统 需要 以 下 部 件 : 

1 ) 一 组 精确 定义 的 指令 集 ， 并 通过 硬件 来 实现 这 些 指令 。 
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2 ) 通过 指令 序列 来 表示 程序 的 具有 精确 定义 的 规范 。 

3 ) 用 于 存放 程序 和 操作 数据 的 存储 器 。 

4) 能 够 按照 程序 预 设 的 顺序 读 取 和 执行 程序 指令 的 控制 器 。 

中 央 处 理 器 (Central Processing Unit, CPU) 是 读 取 并 执行 程序 中 的 指令 的 一 种 硬件 
设备 ， 它 按照 程序 中 预先 设 定 的 顺序 ， 每 次 读 取 和 执行 一 条 单个 的 指令 。 

随机 访问 存储 器 ( Random Access Memory, RAM) 是 一 种 存储 数据 的 硬件 设备 ， 数 据 存 
放 在 CPU 能 够 读 写 的 位 置 。RAM 按照 线性 方式 来 组 织 管理 存放 位 置 。 每 一 个 存储 位 置 都 可 
以 存放 一 个 基本 单元 的 数据 ， 通 常 是 一 个 字 节 (8 比特 ) 或 者 一 个 字 (32 比特 )。 这 些 存储 位 
置 按照 0，1，…， 直 到 2"— 1 的 顺序 进行 编号 ， 其 中 是 这 个 存储 系统 中 存储 地 址 在 二 进 制 
下 的 表示 位 数 。RAM 被 称 为 是 “随机 访问 ”的 ， 是 因为 它 可 以 用 相同 的 时 间 访 问 RAM 中 任 
意 的 一 个 存储 位 置 。 每 一 个 存储 单元 都 只 存储 二 进 制 形 式 的 数据 (8 位 或 32 位 )。RAM 并 不 
会 试图 去 解读 这 些 二 进 制 的 数据 ， 它 只 会 精确 地 存储 和 读 取 这 些 数值 。 存 储 器 对 CPU 所 发 出 
的 读 写 请 求 作出 响应 所 需要 花费 的 时 间 ， 称 为 存储 周期 。 目 前 ， 典 型 的 存储 周期 仅仅 只 有 几 纳 
秒 。 图 4.3 是 CPU 和 RAM 的 示意 框图 。 图 44 给 出 了 CPU 和 RAM 之 间 的 一 种 接口 示意 图 。 


CPU RAM 





图 4.3 ”计算 机 系统 的 硬件 由 中 央 处 理 器 (CPU) 和 随机 访问 存储 器 (RAM) 组 成 。 程 序 及 其 数据 都 
存储 在 RAM 中 ， 数 据 以 栈 的 形式 存放 ， 也 就 是 说 新 的 数据 被 添加 到 栈 顶 ， 读 取 数 据 也 只 能 
从 栈 顶 位 置 读 取 。CPU 中 有 两 个 特殊 的 寄存 器 。 指 令 指针 CIP) 寄存 器 用 来 存放 程序 中 下 一 
条 将 被 执行 的 指令 位 于 RAM 中 的 存放 地 址 。 栈 指针 CSP) 寄存 器 则 存放 栈 顶 元 素 在 RAM 
中 的 存放 地 址 。CPU 还 包含 一 个 算术 逻辑 单元 ( Arithmetic Logic Unit, ALU), ALU 接收 
两 个 输入 数据 (a 和 4b) 并 产生 一 个 输出 (c)s ALU 上 有 一 组 “开始 ”( start) 信号 线 ， 通 过 
这 些 线 可 以 给 ALU 发 信号 来 通知 它 执 行 哪 个 操作 ， 例 如 加 法 、 乘 法 、 或 者 相等 判断 


实际 的 计算 机 系统 中 存储 器 不 止 RAM， 例 如 还 有 硬盘 。 硬 盘 的 访 存 时 间 并 不 是 固定 
的 ， 它 取决 于 磁盘 的 寻 道 时 间 和 转动 磁 存 储 媒介 带 来 的 延迟 时 间 。 关 于 在 多 种 存储 器 之 间 
移动 数据 的 更 多 问题 ， 我 们 将 会 在 第 7 章 存 储 部 分 进行 讨论 。 
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图 4.4 CPU 5 RAM 之 间 的 接口 由 几 个 部 分 组 成 。 接 口 设计 的 目的 是 为 了 使 得 CPU 可 以 对 RAM 
中 某 个 特定 的 位 置 (a) 进行 读 或 写 。 读 操作 将 某 个 选 定 的 存储 位 置 中 的 数值 v 传送 给 CPU, 
而 写 操作 则 是 将 一 个 新 的 数值 从 CPU 传送 到 某 个 选 定 的 存储 位 置 。 内 存 地 址 (MA) 寄存 器 
负责 通知 存储 器 当前 读 写 操作 是 要 对 哪个 位 置 进行 。 内 存 数据 (MD) 寄存 器 负责 存放 读 写 
的 数据 。 读 信号 线 通 知 内 存 硬件 选中 MA 寄存 器 中 指定 的 地 址 位 置 ， 并 把 这 个 位 置 中 存放 
的 数值 传输 给 CPU (存放 到 MD 中 )。 写 信号 线 则 通知 内 存 硬件 从 CPU 读 取 数值 (存放 在 
MD 中 ) 并 传送 到 MA 寄存 器 中 指定 的 地 址 位 置 。 完 成 这 一 系列 操作 所 需要 的 时 间 叫 做 存储 
周期 。 在 现代 RAM 中 ， 存储 周 期 通常 低 于 10 纳 秒 

CPU 使 用 指令 指针 (IP) 寄存 器 来 记录 下 一 条 将 被 执行 的 指令 的 地 址 。 它 通过 重复 以 
下 循环 来 执行 程序 中 的 指令 ， 直 到 遇 到 程序 中 的 退出 指令 时 才 结 束 这 个 循环 : 

1) 指令 读 取 ， 根 据 指令 指针 CIP) 寄存 器 中 的 地 址 读 取 指 令 ， 并 设置 IP=IP+1。 

2) 译 码 ， 取 出 包含 在 指令 中 的 操作 码 。 

3 ) 执行 ， 执 行 指令 对 应 的 操作 。 

4) 检查 ， 检 查 中 断 : 之 前 几 步 可 能 会 出 现 错误 等 待 处 理 。 

CPU 中 包含 一 个 时 钟 ， 时 钟 每 经 过 一 个 节拍 就 会 发 出 一 个 信号 。 这 个 时 钟 信号 会 在 
CPU 中 传递 并 激活 选中 的 电路 。 时 钟 节拍 的 典型 间隔 是 0.5 纳 秒 左右 。CPU 需要 四 个 时 
钟 节拍 来 完成 一 条 指令 运行 所 需要 的 四 个 步骤 。 时 钟 节拍 间隔 长 度 的 选择 ， 取 决 于 在 指令 
循环 的 每 一 个 步骤 中 所 有 电路 进入 一 个 新 的 稳定 状态 所 需要 的 时 间 。 如 果 时 钟 节拍 间隔 太 
得， 一 些 电路 来 不 及 进入 稳定 状态 ，CPU 就 会 发 生 故 障 。 图 4.5 展示 了 CPU 如 何 进行 译 
码 和 指令 执行 。 图 4.6 展示 了 在 CPU 中 算术 逻辑 单元 (ALU) 的 ADD 部 件 如 何 工作 。 

经 过 上 述 介 绍 ， 我 们 的 结论 是 ， 可 以 设计 一 套 电路 使 得 机 器 执行 一 串 指令 从 而 计算 一 
个 函数 。 我 们 在 这 里 所 描述 的 设计 ， 正 是 宾夕法尼亚 大 学 、 麻 省 理工 学 院 、 普 林 斯 顿 大 学 
和 剑桥 大 学 在 20 世纪 40 年 代为 了 联合 建造 第 一 台电 子 计算 机 而 提出 的 设计 方案 。 冯 … 诺 
RE (一 位 和 工程 师 一 起 工作 的 数学 家 ) 写 出 了 这 个 设计 方案 的 详细 描述 。 正 是 因为 他 的 这 
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一 份 里 程 碑 式 的 文献 ， 这 个 设计 被 称 为 “ 汉 “' 诺 依 曼 架 构 ”"， 尽 管 这 个 设计 实际 上 是 由 工程 
师 J. Persper Eckert, John Mauchly , Herman Goldstein, Arther Burks 和 其 他 一 些 人 一 起 发 明 的 。 
当然 ， 也 存在 其 他 许多 架构 可 以 用 来 设计 计算 机 。 这 些 架 构 的 共性 在 于 ， 它 们 都 把 
按照 程序 的 指令 来 进行 函数 计算 这 一 过 程 变 得 自动 化 。 
A 


取出 并 令 


meihe a 执行 fete 














11000000 10000000 10000000 
11000000 01000000 10000000 
11000000 00100000 10000000 
11000000 00010000 10000000 
11000000 00001000 10000000 
00100000 00000000 00000000 
00010000 00000100 01000000 
00011000 00000010 00000000 
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控制 存储 器 ( 操作 码 ， 控 制 字 ) 

图 4.5 CPU 的 指令 周期 由 四 个 阶段 构成 (A)。 在 每 个 时 钟 节 拍 ，CPU 进入 下 一 个 阶段 。 在 第 一 
个 阶段 中 ，CPU 从 指令 指针 (IP, Instruction Pointer) 指向 的 RAM 地 址 中 取出 当前 指令 的 
一 份 拷贝 ， 并 把 指令 指针 指向 下 一 条 待 执行 的 指令 。 第 二 个 阶段 从 当前 指令 中 取出 操作 码 ， 
然后 访问 本 地 控制 内 存 来 获得 当前 指令 的 控制 字 (control word)。 在 本 图 的 例子 中 ， 控 制 
字 包 含 三 个 八 比 特 的 块 ， 分 别 对 应 于 两 个 时 钟 节拍 之 间 的 三 个 时 钟 子 节 拍 (subtick)。 我 们 
将 控制 字 中 的 比特 根据 它们 所 属 的 块 和 位 置 进行 标记 ; 例如 ， 比 特 1.1 代表 第 1 个 块 的 第 1 
个 比特 。 在 时 钟 子 节拍 出 现时 ， 控 制 字 对 应 块 中 八 个 比特 的 每 一 位 都 会 激活 一 个 逻辑 电路 ， 
因此 最 多 可 以 有 八 个 动作 并 行 发 生 。 本 图 的 前 五 个 例子 中 ， 指 令 都 假设 两 个 操作 数 分 别 在 
R1 寄存 器 和 R2 寄存 器 中 。 比 特 1.1 控制 将 R1 的 值 复制 到 ALU 的 “a” 输 入 中 ， 比 特 1.2 
控制 将 R2 的 值 复制 到 ALU 的 “b” 输 入 中 。 控 制 字 中 第 二 块 的 前 五 个 比特 发 送 一 个 对 应 
的 触发 信号 给 ALU， 告 诉 ALU 执行 加 法 (比特 2.1 )、 减 法 (比特 2.2 )、 乘 法 (比特 2.3 )、 
除法 (比特 2.4), 或 者 是 相等 测试 (比特 2.5 )。 控 制 字 中 第 三 块 的 第 一 个 比特 控制 将 ALU 
的 输出 复制 到 RI 寄存 器 。 图 中 的 其 他 三 条 指令 则 激活 不 同 的 执行 路 径 。LOAD ADDR 指令 
激活 比特 1.3， 代 表 的 含义 是 “将 指令 字 中 的 地 址 复制 到 R1 寄存 器 ” 。LOAD 指令 激活 比特 
1.4、 比 特 2.6、 比 特 3.2， 分 别 表 示 “ 将 R1 寄存 器 的 内 容 复制 到 MA (内 存 地 址 ) 寄存 器 ”， 
“激活 内 存 读 信号 ",“ 将 MD (内 存 数据 ) 寄存 器 的 内 容 复制 到 RI1 寄存 器 ”。 最 后 ，STORE 
指令 假设 R1 寄存 器 中 存放 了 一 个 内 存 地 址 ，R2 中 存放 了 一 个 数值 ， 它 将 会 同时 激活 比特 
1.4 和 比特 1.5， 然 后 再 激活 比特 2.7， 它 们 分 别 表示 “把 R1 寄存 器 中 的 值 复制 到 MA 寄存 
器 ",“ 把 R2 寄存 器 中 的 值 复制 到 MD 寄存 器 ”,“ 激 活 内 存 写 信和 号” 
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图 4.6” 当 对 数字 做 加 法 时 ， 我们 采用 一 个 很 简单 的 算法 . 先 对 个 位 的 数字 求 和 ， 然 后 对 十 位 的 数字 
求 和 ， 再 对 百 位 的 数字 求 和 ， 以 此 类 推 。 同 时 ， 当 某 一 位 求 和 的 结果 大 于 9 时 ， 则 向 相 邻 的 
更 高 位 进行 进位 。 比 如 ， 为 了 计算 17 和 26 的 和 ， 我们 从 最 低 的 个 位 开始 ，7 加 6， 得 到 的 
求 和 结果 为 3， 同时 向 更 高 位 进位 1。 然 后 我 们 计算 十 位 上 的 和 ，1 加 2 同时 加 上 进位 1， 得 
到 求 和 结果 为 4， 并且 没有 进位 。 因 此 两 数 的 和 为 43。 对 于 二 进 制 的 数值 系统 而 言 ， 上 面 
的 算法 变 得 更 加 简单 ， 因 为 二 进 制 数字 的 和 只 能 是 0 和 1。 图 中 描述 了 一 个 输入 为 三 个 比特 
的 二 进 制 加 法 器 ( 左 侧 )， 输 入 为 数字 a 和 b， 输 出 为 数字 c。 进 位 信号 〈ci = 从 低位 输入 的 
进位 ，co = 向 高 位 输出 的 进位 ) 从 低位 向 高 位 依次 传递 。 从 右 向 左 看 ， 第 一 个 加 法 器 计算 个 
位 (1 的 倍数 位 )， 下 一 个 加 法 器 计算 第 二 位 (2 的 倍数 位 )， 第 三 个 加 法 器 计算 第 三 位 (4 的 
倍数 位 )。 某 些 情 况 下 的 比特 组 合 会 产生 进位 信号 ， 比 如 1 + 1 = 0 会 产生 进位 1。 上 图 右 侧 
表示 了 所 有 可 能 的 二 进 制 输入 组 合 ， 以 及 对 应 的 二 进 制 输出 组 合 。 我 们 将 最 左 侧 的 进位 信 
号 〈co) 作为 输出 的 第 四 位 ， 因 为 有 可 能 求 和 结果 会 大 于 7 (三 位 比特 所 能 表示 的 最 大 数 )。 
最 大 的 和 可 能 是 111(=7) + 111(=7) 等 于 1110(=14)。 图 中 的 每 一 步 计 算 都 是 由 晶体 管 来 实现 
的 。 当 完成 每 一 位 运算 的 品 体 管 都 进入 稳定 状态 时 ， 我们 就 得 到 求 和 的 结果 ; 而 进入 稳定 状 
态 所 需 时 间 的 最 坏 情况 是 ， 进 位 信号 从 最 低位 一 直 沿 着 图 中 的 进位 链条 传递 到 最 高 位 。 对 大 
数 进行 求 和 也 采用 这 个 相同 的 结构 ，32 位 的 机 器 用 32 个 比特 来 表示 一 个 数 ， 并 采用 包含 32 
步 的 加 法 器 。 在 大 多 数 的 计算 机 中 ， 加 法 器 都 是 构成 更 大 的 算术 逻辑 单元 (ALU) 的 基本 部 
件 ， 可 以 完成 加 、 减 、 乘 、 除 ， 以 及 逻辑 测试 操作 ， 比 如 大 于 、 小 于 和 相等 判断 


程序 及 其 表示 


前 面 的 这 些 讨论 可 能 给 我 们 一 个 这 样 的 印象 : 一 个 程序 可 以 是 由 机 器 指令 集中 的 指 
令 按 任意 方式 组 合 而 成 的 一 个 序列 。 但 事实 不 是 这 样 的 ， 程 序 必须 遵守 一 些 结构 化 的 规 
则 。 在 程序 中 ， 每 条 指令 具体 完成 的 操作 ， 以 及 每 段 代码 整体 上 完成 的 功能 ， 都 不 能 具有 
歧义 ， 和 否则 我 们 无 法 确保 计算 机 对 于 同一 个 输入 在 每 次 运行 时 都 可 靠 地 得 到 同一 个 输出 。 

让 我 们 来 概述 一 下 程序 的 设计 。 通 常 来 说 ， 我 们 在 做 计算 的 时 候 会 做 以 下 三 类 事情 : 

1) 按照 一 个 严格 的 顺序 串 行 地 执行 指令 (顺序)。 

2 ) 根据 一 个 测试 操作 的 结果 ( 真 或 假 )， 在 两 个 计算 选项 中 选择 一 个 执行 (分支 )。 
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3) 对 某 个 运算 重复 执行 多 次 ， 直 到 某 个 终止 条 件 成 立时 停止 重复 (循环 )。 

注意 上 面 提 到 的 迭代 模式 有 可 能 导致 一 个 无 限 的 循环 ， 因 为 终止 条 件 有 可 能 一 直 无 
法 满足 。 

编程 语言 ( programming language) 是 一 个 语法 规则 的 集合 ， 它 精确 地 描述 了 前 面 提 
到 的 各 种 程序 结构 的 表示 方法 。 目 前 已 经 有 上 千 种 编程 语言 ， 虽然 编程 语言 是 多 种 多 样 
的 ， 但 它们 都 有 一 个 相同 的 目标 : 即 描述 如 何 让 一 台 计 算 机 来 计算 某 个 特定 的 函数 。 

当 设计 程序 时 ， 我 们 可 以 设想 有 一 个 指针 ， 它 沿 着 程序 中 的 指令 逐条 地 移动 ， 每 移 
动 一 次 ， 机 器 都 执行 指针 当前 所 指向 的 一 条 指令 。 这 个 指针 叫做 指令 指针 CIP). CPU 将 
指令 指针 实现 成 一 个 寄存 器 ， 它 里 面 存放 的 是 程序 中 将 被 执行 的 下 一 条 指令 在 RAM 中 的 
地 址 ( 见 图 4.3 )。 当 我 们 执行 完 一 条 指令 之 后 ， 通 常会 按 着 顺序 继续 执行 在 指令 序列 中 的 
下 一 条 指令 (IP + 1 )， 除 非 遇 到 了 一 条 控制 指令 将 IP 进行 了 重新 设 定 。 比 如 , 一 条 “GO 
17” 指 令 会 将 IP 的 值 指向 17， 因 此 CPU 接 下 来 将 会 执行 内 存 中 位 置 为 17 的 那 条 指令 。 

关于 机 器 如 何 执行 程序 ， 我 们 接 下 来 将 讨论 如 何 设 计 指 令 集 ， 使 得 机 器 可 以 支持 任 
何 遵守 上 面 所 提 到 的 三 类 结构 的 程序 。 


栈 式 计算 机 : 计算 机 系统 的 一 种 简单 模型 

几 千 年 来 ， 学 生 在 学 习 代数 的 时 候 一 直 都 不 断 被 提醒 : 算术 运算 是 有 优先 级 次 序 的 ， 
要 先 算 乘 除法 ， 然 后 再 做 加 减法 。 对 于 具有 同等 优先 级 的 运算 ， 则 应 该 从 左 到 右 依次 计 
算 。 这 些 规则 保证 了 ， 无 论 是 谁 来 做 这 样 的 运算 都 能 得 到 同样 的 结果 。 例 如 ， 根 据 优 先 级 
次 序 ， 表 达 式 1 + 2 x 6 /4 一 2 会 被 依次 计算 为 : 

1+2 x 6/4-2 

1+12/4-2 

La =2 

4-2 

2 

更 高 年 级 的 学 生 可 能 还 学 过 第 三 种 优先 级 : 指数 和 对 数 运算 。 这 两 种 运算 的 优先 级 
比 乘除 法 的 优先 级 更 高 。 

同时 ， 在 学 习 代 数 的 过 程 中 我 们 也 学 过 ， 可 以 通过 加 括号 的 方式 来 强制 某 一 步 运算 
优先 进行 ， 而 不 受 相 邻 运算 符 优 先 级 的 干扰 。 例 如 ， 将 上 述 表达 式 的 最 后 两 项 放 进 括号 ， 
就 能 得 到 一 个 完全 不 同 的 结果 : 


1+2 x 6/(4-2) 
1+2 x 6/2 
i+ 12/2 
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1924 年 ， 波 兰 的 逻辑 学 家 Jan Lukasiewicz 发 明了 一 种 新 的 表示 方式 ， 现 在 称 为 逆 波 
兰 表 达 式 (RPN)。 它 遵从 运算 符 的 优先 级 ， 同 时 又 避免 使 用 括号 。 这 种 表示 方法 的 基本 
思路 是 在 两 个 操作 数 后 面 放置 一 个 操作 符 ， 从 而 构成 一 个 表达 式 。 按 照 道 波兰 表达 式 将 上 


面 两 个 式 子 表示 如 下 : 


L268 x*A4f¢2-> 


L26 X 42-—/.+ 

在 计算 机 科学 发 展 的 早期 A AEB, WEE ETA ST DHE ORTH BR 
是 一 种 后 人 先 出 的 内 存 结构 。 我 们 按照 从 左 到 右 的 方式 来 读 取 波 兰 表 达 式 ， 当 遇 到 数字 的 
时 候 ， 就 将 数字 压 人 栈 顶 ， 遇 到 运算 符 的 时 候 ， 则 将 栈 顶 的 两 个 元 素 取出 ， 根 据 运算 符 进 
行 运 算 ， 并 把 运算 结果 放 回 栈 中 。 例 如 ， 对 于 上 面 的 第 一 个 表达 式 ， 在 计算 过 程 中 对 应 的 
栈 状态 ， 可 以 像 下 面 这 样 表示 ( 栈 项 在 右 侧 ): 


1 
| 


(将 1 压 入 栈 ) 
(将 2 压 入 栈 ) 
(将 6 压 入 栈 ) 
(2 和 6 HR, 做 乘法 ， 并 将 结果 12 压 入 栈 ) 
(将 4 压 入 栈 ) 
(12 和 4 出 栈 ， 做 除法 ， 并 将 结果 3 压 入 栈 ) 
(1 和 3 HR, 做 加 法 ， 并 将 结果 4 压 入 栈 ) 
(将 2 压 入 栈 ) 
(4 和 2 HR, 做 除法 ， 并 将 结果 2 压 入 栈 ) 


Burroughs B5000 计算 机 (1961 ) 以 栈 的 形式 组 织 内 存 ， 实 现 了 对 表达 式 进 行 高 效 
计算 的 方法 ( Organick 1973 )。 英 国 的 电子 KDF9 ( 1963 ) 也 使 用 了 栈 式 的 结构 。Hewlett 
Packard 科学 计算 器 HP-67 (1972) 也 同样 使 用 了 这 种 结构 ， 因 为 这 样 可 以 减少 在 计算 复 
杂 表 达 式 时 键盘 的 敲 击 次 数 和 错误 。 现 代 的 HP 计算 器 继续 沿用 这 种 栈 式 的 结构 。 从 Algol 
(1958) 开始 ， 许 多 编程 语言 都 是 基于 一 种 假定 而 设计 的 ， 即 它 所 使 用 的 机 器 具有 栈 式 的 
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内 存 结构 。 现 代 的 多 核 计 算 机 芯片 也 将 栈 式 内 存 结构 用 于 子 过 程 的 调用 。 现 代 的 编译 器 则 
使 用 CPU 的 寄存 器 来 模拟 压 栈 操作 ， 从 而 计算 表达 式 。 栈 式 存 储 结 构 几 乎 无 处 不 在 。 

K 4.1 展示 的 是 为 图 4.3 所 描述 的 CPU-RAM 架构 而 设计 的 一 个 指令 集 。“ 操 作 码 ” 
列 中 是 每 一 条 指令 的 缩写 。 指 令 的 执行 效果 在 “执行 前 ”和 “执行 后 ”两 列 中 ， 显 示 的 是 
在 指令 执行 前 后 栈 的 结构 变化 。 字 母 “S” 代 表 了 当前 指令 执行 之 前 栈 的 状态 。Mem[a] 
表示 存储 在 内 存 位 置 a 中 的 内 容 。 在 “内 存 效 果 ” 列 中 给 出 了 某 个 内 存 位 置 中 值 的 改变 以 
及 指令 指针 的 值 的 改变 产生 的 效果 。 





表 4.1 栈 式 机 器 的 指令 集 


= 全 mr 
a ar ae 
aaan a a ec Sear 
o | eem [| 
Oe | Rs | | | 
Con | mea |s |a | vom 
aego [a | ma fs fs | may 
ss a [se [s 
= o | Me |s |s | mmn 
C oor | wm | sm | s | Yvon 
aR 


图 4.7 展示 了 用 表 4.1 中 指令 集 编 写 的 一 个 程序 例子 ， 这 个 程序 实现 了 将 一 个 表达 式 
的 值 赋 予 变量 X 的 过 程 。 


X=Ar(B+C) 


省 i AIGA Bia Te, AG eT ‘ADD ' MUL | ST 











图 4.7 这 一 系列 的 快照 展示 了 在 实现 赋值 语句 X = A*(B + C) 的 过 程 中 栈 的 使 用 情况 。 在 这 个 例子 
中 ,A=1，B=3，C=2。 当 程序 执行 完毕 之 后 ， 内 存 中 X = 20， 栈 变 为 空 


过 程 与 异常 
在 机 咒 的 指令 集中 包含 了 一 些 在 运行 程序 时 控制 CPU 执行 顺序 的 指令 。 更 高 级 的 





些 编程 语言 往往 要 求 更 复杂 的 流程 控制 。 因 为 除了 直接 使 用 指令 集 ， 它 们 还 允许 程序 员 编 
写 一 些 自己 定义 的 函数 ， 以 及 编写 函数 来 处 理 错 误 或 者 其 他 需要 特别 关注 的 事件 。 支 持 程 
序 员 实现 这 些 功能 所 需要 的 基本 结构 ， 就 是 过 程 的 调用 和 返回 机 制 。 过 程 调 用 机 制 的 目的 
在 于 ， 将 CPU 转 到 另 一 个 程序 的 首 条 指令 处 开始 执行 ， 而 当 该 程序 执行 完毕 之 后 ， 再 将 
CPU 返回 到 刚才 启动 调用 的 代码 位 置 。 

第 一 台 存储 程序 式 计算 机 的 设计 者 意识 到 ， 程 序 员 和 希望 在 程序 中 添加 自己 编写 的 函 
数 ， 将 这 些 函 数 实现 成 一 些 子 程序 ， 并 希望 它们 可 以 像 最 基本 的 机 器 指令 那样 很 容易 地 被 
调用 。 子 程序 机 制 允 许 程序 员 在 任何 需要 的 位 置 去 调用 一 个 事先 写 好 的 子 程序 ， 而 不 是 将 
子 程序 的 代码 在 调用 处 重 写 一 遍 。 同 时 ， 它 也 使 得 专业 人 士 可 以 为 一 些 标准 的 函数 建立 专 
门 的 程序 库 ， 比 如 三 角 函 数 和 代数 函数 ， 这 些 程 序 可 以 被 任何 其 他 人 可 靠 地 调用 。 

在 20 世纪 50 年代， 可 重用 的 代码 最 开始 被 称 为 子 程序 。20 世纪 60 年 代 ， Æ Algol 
语言 的 影响 下 ， 这 个 名 字 变 成 了 过 程 (procedure)。 一 个 过 程 通常 就 是 实现 了 简单 而 单一 
的 某 个 功能 的 子 程序 。 

过 程 的 核心 思想 在 于 ， 它 仅仅 在 调用 发 生 之 后 并 且 返 回 之 前 ， 才 是 处 于 活跃 状态 的 。 
并 且 ， 处 于 活跃 状态 时 ， 它 所 需要 的 数据 都 存储 在 一 个 私有 的 内 存 区 域 中 ， 这 个 内 存 区 
域 称 为 活动 记录 (Activation Record，AR)。 当 一 个 过 程 被 调用 时 ， 计 算 机 会 先 为 这 个 过 
程 分 配 一 块 内 存 区 域 ， 用 来 存放 这 次 调用 的 活动 记录 ; 而 当 过 程 返回 时 ， 则 会 释放 这 些 内 
存 。 当 过 程 的 调用 发 生 嵌 套 时 一 一 即 一 个 处 于 活跃 状态 的 过 程 又 调用 了 其 他 的 过 程 (包括 
它 自 己 ) 一 一 就 会 出 现 多 个 活动 记录 ， 每 个 活动 记录 对 应 一 次 调用 。 这 些 活动 记录 会 按照 
调用 发 生 的 顺序 串联 起 来 。 因 此 ， 当 一 个 过 程 返回 时 ， 程 序 就 能 回 到 调用 发 生 的 位 置 ， 继 
续 往 下 执行 ( 见 图 4.8 )。 由 于 返回 发 生 的 次 序 正 好 和 调用 发 生 的 次 序 相 反 ， 活 动 记 录 会 在 
调用 发 生 时 压 人 到 一 个 常规 的 栈 中 ， 并 在 调用 返回 时 出 栈 (网 图 4.9 ) 。 

现在 来 看 关于 对 LOG(Y) 函数 进行 调用 的 一 个 实例 。 这 个 过 程 调用 的 意图 是 执行 一 
段 计 算 LogzY 的 代码 ， 并 在 栈 顶 返回 计算 结果 。 为 了 实现 这 个 意图 ，CALL 指令 将 CPU 
交 给 LOG 函数 的 代码 。LOG 函数 的 代码 计算 出 结果 ， 并 将 结果 放置 于 LOG 函数 活动 记 
录 中 预 留 的 起 始 位 置 。 当 LOG 函数 的 代码 结束 运行 ， 它 会 执行 一 个 RET (返回 ) 指令 
这 使 得 CPU 回 到 CALL 指令 的 下 一 条 指令 继续 向 下 执行 。 下 面 五 个 步 又 更 详细 地 阐述 了 
这 个 过 程 是 如 何 实现 的 : 

1) 调用 者 根据 LOG 函数 的 活动 记录 模板 ， 在 栈 顶 建立 一 个 新 的 活动 记录 。 这 个 活 
动 记录 为 参数 (Y) 预 留 了 一 格 存储 空间 ， 并 为 两 个 局 部 变量 预 留 了 两 格 存 储 空间 。 最 后 
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通过 一 系列 (如 上 = 6 次 ) 装载 操作 来 填充 这 些 存储 位 置 ， 以 完成 活动 记录 的 创建 。 

2) 调用 者 将 LOG 函数 的 地 址 置 于 栈 顶 。 这 时 ， 新 的 活动 记录 的 起 始 位 置 处 于 栈 指 
针 向 下 大 格 的 位 置 ， 也 就 是 说 新 的 活动 记录 的 起 始 位 置 是 SP -。 

3) 调用 者 执行 指令 CALL k， 即 执行 以 下 步骤 ; 保存 I 和 AR 寄存 器 的 内 容 到 为 它 
们 预 留 的 位 置 (分 别 在 位 置 SP-k+1 和 SP 一 k+2) 中 , 设置 寄存 器 AR = SP - 大 ， 并 将 
栈 顶 的 数值 出 栈 并 存 人 寄存 器 Po (WE IP 寄存 器 已 经 指向 LOG 函数 和 人口 。) 





图 4.8 ”编程 语言 提供 了 过 程 (独立 的 子 程序 ) 来 实现 函数 。MAIN 函数 可 以 看 做 是 被 操作 系统 调用 
的 一 个 过 程 。 在 这 个 例子 中 ，MAIN 函数 调用 了 过 程 F， 之 后 过 程 F 调 用 了 它 自己 ,然后 
第 二 个 过 程 F 调用 了 过 程 G。 当 过 程 G 被 激活 并 运行 时 ， 过 程 MAIN 以 及 对 F 的 两 次 调用 
都 处 于 活跃 状态 ， 但 是 被 暂停 和 悬挂 起 来 了 。 图 中 向 右 的 箭头 表示 调用 动作 ， 以 及 参数 的 
传递 ; 例如 MAIN 函数 调用 F 时 传递 了 参数 X。 向 左 的 箭头 表示 了 返回 的 数值 ， 比 如 Y = 
F(X) 的 值 。 每 个 过 程 都 是 由 一 个 代码 段 和 一 个 数据 段 实现 的 。 虚 线 箭头 表示 了 每 次 调用 对 
应 的 过 程 代码 。 当 过 程 F 调用 它 自己 的 时 候 ， 每 个 F 调用 实例 都 有 一 个 属于 自己 的 数据 段 ， 
但 是 所 有 对 下 的 调用 实例 都 共享 过 程 F 的 同一 段 代 码 。 数 据 段 被 实现 成 一 项 活动 记录 ， 它 
包含 了 下 面 几 部 分 : 保存 的 指令 指针 (IP)、 过 程 调用 的 参数 、 过 程 使 用 的 局 部 变量 ,以 及 
一 个 仅 供 该 过 程 使 用 的 栈 内 存 区 域 。 保 存 的 IP 指针 属于 调用 者 ; 例如 ，MAIN 函数 在 代码 
段 中 地 址 372 的 位 置 调用 了 过 程 E， 当 下 执行 完毕 之 后 ，CPU 的 指令 指针 被 恢复 成 372。 因 
为 过 程 是 否 被 激活 只 有 等 到 程序 真正 运行 的 时 候 才 知道 ， 所 以 活动 记录 对 应 的 存储 区 域 只 
能 动态 地 进行 处 理 。 栈 可 以 用 来 实现 这 一 目的 ， 因 为 反 激 活 〈 过 程 返回 ) 的 顺序 和 激活 (过 
程 调 用 ) 的 顺序 是 相反 的 


4) 现在 CPU 执行 LOG 函数 的 代码 。 这 段 代 码 将 会 在 AR + 3 的 位 置 找到 参数 了 ， 


然后 在 AR+4 和 AR+5 的 位 置 找到 两 个 局 部 变量 。LOG 函数 的 代码 将 计算 得 到 的 
LOG(Y) 数值 保存 到 为 返回 值 预 留 的 位 置 ， 也 就 是 AR 指向 的 位 置 。 


活动 记录 





图 4.9 通过 对 CPU 做 一 点 修改 ， 就 可 以 把 一 个 运行 中 的 程序 (如 图 4.8 ) 的 全 部 活动 记录 存放 到 
程序 的 栈 中 。 一 个 过 程 调用 发 生 时 ， 它 将 被 调用 过 程 的 活动 记录 压 人 栈 顶 ， 而 当 过 程 执行 
结束 并 返回 时 ， 它 将 对 应 的 活动 记录 从 栈 顶 弹出 。CPU 中 的 活动 记录 (Activation Record, 
AR) 寄存 器 指向 当前 活动 记录 的 起 始 位 置 。 在 调用 之 前 ， 调 用 者 的 代码 会 负责 在 栈 顶 建立 
新 的 活动 记录 ， 将 调用 参数 和 局 部 变量 的 数值 装 入 栈 中 适当 的 位 置 。 在 调用 发 生 时 ，IP 和 
AR 寄存 器 被 转交 给 被 调用 的 过 程 使 用 ， 调 用 之 前 的 值 将 在 调用 返回 时 得 到 恢复 。 当 被 调用 
的 过 程 运 行 时 ， 调 用 参数 和 局 部 变量 都 是 根据 它们 在 活动 记录 中 的 相对 偏 移 位 置 来 访问 的 。 
例如 ， 第 一 个 参数 在 AR + 3 的 位 置 。 调 用 函数 恢复 运行 时 ， 它 会 从 栈 顶 位 置 读 取 被 调用 郴 
数 计算 得 到 的 返回 值 

5) 被 调用 的 过 程 执 行 RET 指令 : 它 将 SP 寄存 器 指向 AR 位 置 ， 并 从 之 前 保存 的 位 
置 (SP + 1, SP+2) 读 取 ， 从 而 将 IP 和 AR 寄存 器 的 值 恢复 成 调用 之 前 的 状态 。 现 在 ， 
调用 者 可 以 从 调用 之 处 继续 执行 后 续 的 指令 ， 而 这 时 LOG(Y) 的 值 就 处 于 栈 顶 。 

上 面 所 描述 的 过 程 架 构 是 允许 递归 的 ， 也 就 是 说 一 个 程序 可 以 调用 它们 自己 5。 最早 
支持 递归 的 编程 语言 是 在 1958 年 提出 的 Lisp 和 Algol。 设 计 者 之 所 以 引入 递归 ， 是 因为 
他 们 和 希望 设计 一 种 能 够 表达 和 执行 任何 算法 的 编程 语言 。Lisp 语言 使 用 Church 的 lambda 
表达 式 来 表示 算法 ， 而 Algol 语言 采用 含有 递归 函数 的 过 程 来 表示 算法 。1960 年 左右 ， 
Edsger Dijkstra 提出 以 栈 的 形式 来 组 织 内 存 ， 同 时 开发 出 第 一 个 Algol 语言 的 编译 器 。 相 
EMA, FÈ Lisp 语言 的 编译 器 要 困难 得 多 ， 直 到 20 世纪 70 年 代 才 有 了 高 效 的 Lisp 编 
译 器 。 在 那 之 后 ， 许 多 编程 语言 都 支持 递归 过 程 。 

这 种 过 程 架 构 的 设计 实际 上 被 证 明 是 非常 有 用 的 ， 不仅 是 在 编程 函数 时 有 用 ， 在 处 
理 计 算 过 程 中 的 错误 时 同样 有 用 。 例 如 ， 如 果 一 个 程序 试图 做 除数 为 零 的 除法 ， 结 果 会 如 


74 
2 


76 


60 HAF 


何 ? 从 数学 意义 上 来 说 ， 这 个 结果 是 无 定义 的 ， 这 种 情况 下 程序 也 无 法 给 出 一 个 答案 。 为 
了 避免 让 一 个 无 定义 的 值 在 程序 中 传递 ，CPU 的 设计 者 让 算术 逻辑 单元 (ALU) 在 发 生 这 
种 错误 时 发 出 一 个 信号 。 他 们 修改 了 CPU 的 指令 周期 ， 让 CPU 来 检测 这 个 信和 号。 这 就 是 
我 们 在 前 面 介绍 过 的 指令 周期 中 的 第 四 个 步 又 。 如 果 ALU 检测 到 “ 除 零 ”错误 并 设置 相 
应 的 信号 ，CPU 就 会 转向 一 个 特殊 的 子 程序 ， 这 个 子 程序 或 者 消除 这 个 错误 ， 或 者 终止 
这 个 程序 。 将 CPU 转向 处 理 错误 的 子 程序 这 一 过 程 被 称 为 “中 断 ”。Organick ( 1973 ) 将 
中 断 描 述 为 一 种 “预料 之 外 的 过 程 调 用 ”。 

发 生 除数 为 零 的 错误 ， 并 不 是 使 CPU 中 断 的 唯一 原因 。 设 计 者 将 所 有 需要 CPU 立刻 
处 理 的 事件 统称 为 异常 状态 。 异 常 状态 可 以 分 为 两 类 : 错误 和 外 部 信和 号。 错误 是 指 程序 
中 可 能 导致 不 正确 或 者 未 定义 行为 的 一 种 状态 。 能 够 被 CPU 检测 到 的 错误 包括 : 除数 为 
F. FRE CP Yank BROT PRPS, 或 者 任何 的 越界 引用 等 。 而 外 部 信号 则 表明 有 更 
高 优先 级 的 事件 发 生 。 外 部 信和 号 的 例子 包括 : 时 钟 警告 、 磁 盘 操 作 完成 、 鼠 标点 击 以 及 网 
络 数据 包 到 达 等 。 当 任何 异常 发 生 时 ，CPU 都 会 中 断 当 前 正在 执行 的 程序 ， 转 而 去 处 理 
错误 或 者 对 外 部 信和 号 进行 响应 。 通 过 引入 一 种 “中 断 向 量 ”， 当 感应 器 报告 异常 大 发 生 时 ， 
CPU 能 够 自动 并 且 快 速 地 调用 第 大 个 中 断 处 理 程 序 来 进行 处 理 〈 见 图 4.10 ) 


代码 


异常 传感器 





图 4.10 ”中断 机 制 使 得 CPU 能 够 将 当前 的 任务 暂停 ， 并 且 执 行 一 个 进行 差错 处 理 或 者 响应 更 高 优先 
级 外 部 信号 的 过 程 (程序 )。CPU 中 的 传感器 电路 以 及 计算 机 系统 其 他 的 传感器 ， 都 会 检测 
可 能 出 现 的 任何 异常 。 选 择 电 路 则 会 将 优先 级 最 高 的 异常 选 出 ， 并 输出 它 的 型 号 (如 果 没 有 
异常 则 输出 0 )。 在 每 个 指令 周期 的 末尾 ，CPU 都 会 进行 异常 检测 。 如 果 存 在 异常 ，CPU 就 
会 暂停 正在 执行 的 指令 ， 然 后 以 中 断 类 型 号 (这 里 是 3 ) 为 索引 在 中 断 向 量 中 查找 。 中 断 向 
量 是 一 个 存储 着 每 个 中 断 处 理 程序 人 口 的 线性 表 。 找 到 中 断 处 理 程序 人 口 之 后 ，CPU 调用 
中 断 处 理 函数 (图 中 是 h3 )。h3 对 应 的 活动 记录 被 压 人 栈 顶 ， 然 后 指令 周期 恢复 正常 运转 。 
中 断 程序 执行 完毕 后 ， 返 回 指令 会 让 计算 机 恢复 到 之 前 被 中 断 的 程序 位 置 ， 继 续 往 下 执行 
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选择 的 不 确定 性 

中 断 机 制 可 能 会 导致 一 种 介 稳 态 ， 一 种 难以 察觉 但 却 是 毁灭 性 的 错误 。 当 CPU 正在 
试图 读 取 记 录 信号 的 触发 电路 的 同时 ， 如 果 出 现 了 一 个 异常 信号 ， 将 会 发 生 什么 ”时钟 可 
以 控制 的 是 CPU 什么 时 候 去 查看 中 断 信号 ， 却 无 法 控制 外 部 信号 到 达 的 时 机 。 

以 下 是 事情 的 发 生 经 过 。 假 设 在 电路 中 采用 3 伏 来 表示 0 电 平 ， 采 用 5 伏 来 表示 1 
电 平 。 外 部 信号 的 到 达 会 导致 中 断 触发 器 由 0 向 1 状态 转变 ， 也 就 是 触发 器 的 输出 电压 从 
3 伏 转 向 5 伏 。 然 而 ， 这 个 过 程 需要 时 间 ， 那 么 中 间 会 存在 一 小 段 时 间 ， 在 此 时 间 内 输出 
电压 介 于 3 伏 到 5 伏 之 间 。 这 个 电压 离 3 伏 和 5 伏 都 不 够 靠近 ， 以 至 于 无 法 可 靠 地 判断 为 
0 电 平 或 者 1 电 平 。 电 子 工程 师 称 这 种 输出 为 “ 半 电 平 ” 。 半 电 平 输入 可 能 会 导致 触发 带 
进入 一 个 介 稳 态 ， 这 个 状态 使 得 输出 电压 为 两 个 稳定 状态 的 中 间 值 。 这 个 中 间 点 就 像 是 把 
一 个 球 放 在 屋顶 中 间 凸 起 的 位 置 : 它 可 能 在 这 个 位 置 停留 一 个 无 法 预料 的 时 间 长 度 ， 直 到 
出 现 一 些微 小 的 变化 让 它 失 去 平衡 状态 。 

介 稳 态 给 所 有 读 取 触发 器 输出 的 电路 都 带 来 了 故障 风险 。 如 果 这 种 半 电 平 信号 持续 
到 下 一 个 时 钟 节拍 ， 后 续 电 路 接收 到 的 信号 就 无 法 被 判定 为 0 或 1， 在 这 种 情况 下 电路 的 
行为 将 变 得 不 可 预测 。 

介 稳 态 问 题 在 硬件 工程 师 中 广为人知 。Chaney 和 Molnor (1973) 以 及 Kinniment 
和 Woods (1976 ) 对 这 个 问题 进行 了 实验 ， 度 量 了 介 稳 态 可 能 出 现 的 概率 以 及 持续 的 时 
间 。 通 过 将 计算 机 的 时 钟 频率 与 外 部 信号 的 频率 同步 起 来 ， 他 们 试图 在 每 次 外 部 信和 号 改 
变 时 都 生成 一 个 介 稳 态 的 事件 。 科 学 家 通过 示波器 观察 到 大 量 的 介 稳 态 事件 ， 一 些 事件 
甚至 持续 了 5 个 、10 个 甚至 20 个 时 钟 周期 ( 见 图 4.11 ) 。 其 他 工程 师 早 就 知道 ， 选 择 
电路 (有 时 也 被 称 为 仲裁 电路 ) 是 非常 难以 设计 的 (Seitz 1980, Denning 1985, Ginosar 
2003 )。 

从 那 时 起 ， 芯 片 制造 商 就 一 直 在 考虑 电路 中 可 能 出 现 介 稳 态 的 问题 。Sutherland 和 
Ebergen ( 2002 ) 在 报告 中 表示 ， 现 代 的 触发 器 能 在 大 概 100 皮 秒 (100 x 10°? BP) 的 时 
间 内 完成 状态 切换 ， 而 持续 时 间 为 400 皮 秒 或 更 长 的 介 稳 态 ， 将 会 每 10 小 时 出 现 一 次 。 
芯片 制造 商 Xilinx.com 则 表示 ， 当 时 钟 频 率 为 200MHz 或 更 低 时 ， 他 们 制造 的 现代 触发 
髓 将 不 会 有 机 会 出 现 介 稳 态 , 但 是 在 更 快 的 时 钟 频 率 下 则 会 出 现 介 稳 态 (Alfke 2005 )。 
在 一 个 每 秒 出 现 五 千 万 次 中 断 信号 的 实验 中 ， 当 时 钟 频率 为 300MHz 时 ， 大 约 每 分 钟 会 
观察 到 一 次 介 稳 态 现象 ， 而 当时 钟 频率 为 400MHz 时 ， 每 两 毫秒 会 观察 到 一 次 介 稳 态 
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现象 。 而 在 一 个 每 秒 发 生 500 次 中 断 的 计算 机 系统 中 ， 中 断 发 生 的 频率 是 上 述 实验 中 的 
1/100 000， 可 以 推断 出 亚 稳 态 状态 出 现 的 频率 是 : 时 钟 频率 为 300MHz 时 每 两 星期 出 现 
一 次 ， 时 钟 频 率 为 400MHz 时 每 3 分 钟 出 现 一 次 。 


外 部 信和 号 














图 4.11 用 来 观察 触发 器 (FF) 介 稳 态 现象 的 实验 设置 。 每 一 个 时 钟 脉冲 信号 都 触动 触发 器 的 状 
态 以 匹配 输入 信号 。 当 脉冲 信号 到 达 时 ， 如 果 输 入 信号 在 变化 〈 外 部 信和 号 中 的 虚线 部 分 )， 
触发 器 可 能 进入 一 个 持续 数 个 时 钟 周 期 的 不 确定 状态 (输出 信号 中 的 虚线 部 分 )。 在 数字 
计算 机 中 ， 不 确定 的 输出 在 下 一 个 脉冲 时 则 成 为 其 他 逻辑 电路 的 输入 ， 从 而 造成 半 信 和 号 
故障 

现在 问题 就 出 现 了 。 当 CPU 需要 查询 状态 时 ， 中 断 触发 器 可 能 还 处 于 介 稳 态 ， 这 会 

导致 下 一 个 控制 CPU 状态 的 触发 器 进入 介 稳 态 。 如 果 这 些 触 发 器 到 下 一 个 时 钟 节拍 还 

有 进入 稳定 状态 ， 那 么 CPU 的 行为 将 变 得 不 可 预测 。 实 验 结果 表明 这 种 情况 很 有 可 能 会 

发 生 。 

这 个 问题 困扰 了 很 多 早期 的 计算 机 系统 。 在 工程 师 真 正 理解 这 个 问题 之 前 ， 他 们 
只 是 发 现 CPU 会 在 一 些 随 机 的 时 间 点 停止 运行 ， 仿 佛 被 冻结 。 他 们 甚至 将 这 种 奇怪 的 

CPU 冻结 现象 解释 为 “宇宙 射线 导致 的 朋 泪 ” ， 因 为 这 些 现象 看 起 来 像 是 由 于 晶体 管 

的 功能 遭 到 随机 破坏 而 导致 的 。 只 有 完全 关机 并 重新 启动 ， 才 能 让 这 些 CPU 重新 开始 

工作 。 这 个 问题 很 让 人 困扰 ， 因 为 这 种 冻结 现象 几乎 每 几 个 小 时 或 者 每 几 天 就 会 出 现 

一 次 。 

在 1970 年 左右 ,英国 剑桥 大 学 计算 实验 室 的 一 位 硬件 工程 师 David Wheeler， 找 到 

了 这 些 神秘 的 CPU 冻结 现象 的 原因 : 中 断 触 发 器 输出 的 半 信 和 号 。 他 设计 了 一 种 新 型 触发 

器 ， 称 之 为 “ 国 值 触发 器 ”， 并 设计 了 这 种 触发 器 的 使 用 方法 ， 消 除了 CPU 在 查询 中 断 触 

发 器 状态 时 可 能 造成 的 停机 风险 (ILE 4.12 ) 。 


2 
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图 4.12” 阅 值 触发 器 (TFF) 能 够 保证 ， 当 CPU 在 指令 周期 的 末尾 进行 中 断 查询 时 ，CPU 的 中 断 输 
A (“int”) 是 稳定 的 。 当 CPU 请 求 询问 外 部 的 中 断 信号 的 值 时 (“int?”)， 它 会 触发 TFF 
ee ee 同时 把 时 钟 关 闭 。 当 它 的 状态 返回 到 “0” 或 者 

”时 ，TFF 就 会 通过 输出 T 发送 一 个 脉冲 信和 号， 从 而 恢复 时 钟 信和 号。 时钟 只 会 暂停 很 小 
neon 以 确保 TFF 重新 进入 稳定 状态 。David Wheeler 是 在 20 世纪 70 年 代 对 
剑桥 的 CAP 计算 机 进行 中 断 检查 时 ， 提 出 了 暂时 关闭 时 钟 的 这 个 想法 

硬件 工程 师 在 设计 计算 机 的 时 候 ， 遇 到 了 很 多 像 上 面 提 到 的 中 断 触发 器 这 类 问题 。 
几乎 每 个 部 件 都 存在 需要 同时 从 两 个 事件 中 进行 选择 的 现象 。 比 如 ， 两 个 CPU 同时 访问 

内 存 中 同一 个 位 置 ， 两 个 交易 同时 锁定 了 数据 库 中 的 同一 条 记录 ， 两 台 计算 机 同时 在 以 太 

网 上 广播 数据 ， 两 个 数据 包 同 时 到 达 网 卡 ， 自 动 代 理 同时 收 到 两 个 请 求 ， 或 者 机 械 子 系统 

同时 发 现 两 个 可 以 执行 的 选项 。 在 上 述 所 有 情况 中 ， 如 果 我 们 要 求 在 下 一 个 时 钟 节拍 到 来 

之 前 在 所 有 选项 中 做 出 选择 ， 那 么 就 很 可 能 出 现 选 择 电路 未 进入 稳 态 的 可 能 性 。 如 果 我 们 

希望 等 待 电 路 进入 稳 态 ， 那 么 就 需要 暂停 时 钟 。 

至 此 ， 我 们 可 以 用 选择 不 确定 性 原理 来 总 结 上 面 这 些 现象 : 在 一 个 预先 设 定 的 期 限 

内 ， 不 可 能 无 歧义 地 对 几乎 同时 发 生 的 事件 做 出 选择 。 (Lamport 1984, Denning 2007b). 

这 种 不 确定 性 的 来 源 就 在 于 ， 当 两 个 不 同 的 信号 同时 发 生 改 变 时 ， 产 生 的 冲突 可 能 会 导致 

选择 部 件 产生 介 稳 态 。 

选择 不 确定 性 这 种 现象 ， 其 本 质 不 是 关于 系统 如 何 对 观察 者 做 出 反应 ， 而 是 观察 者 
如 何 对 系统 做 出 反应 。 人 类 在 做 选择 的 时 候 也 是 如 此 。 如 果 有 很 多 选项 同时 摆 在 我 们 前 
面 ， 却 需要 在 很 短 的 时 间 内 做 出 选择 ， 我 们 会 怎么 做 呢 ? 有 时 候 ， 当 截止 期 限 到 了 ， 我 们 
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依旧 不 能 做 出 决定 ， 这 时 候 便 失去 了 面前 的 机 会 。 我 们 不 能 像 Wheeler 那样 ， 暂 时 关闭 时 
钟 直 到 有 了 决定 再 说 。 有 的 人 可 能 会 处 在 这 种 无 法 做 出 选择 的 状态 几 秒 、 几 小 时 、 几 天 、 
几 个 月 ， 甚 至 几 年 。 
出 现 无 限期 的 选择 困难 的 可 能 性 最 早 是 十 四 世纪 的 哲学 家 Jean Buridan 提出 的 。 他 描 
79) 述 了 这 样 一 个 悖 论 : 一 只 饥饿 的 狗 ， 站 在 两 份 等 量 的 食物 中 间 ， 难 以 选择 ， 最 后 饿 死 了 
81| (Lamport 1984, Denning 1985 )。 如 果 从 当今 认 知 科学 家 的 角度 来 讨论 这 个 问题 ，Buridan 
可 能 会 说， 当 有 几 个 诱惑 力 相 等 的 选项 同时 呈现 在 面前 的 时 候 ， 大 脑 会 被 固化 在 一 个 亚 稳 
定 的 状态 。 





结论 

本 章 的 目的 是 通过 展示 各 种 具有 说 服 力 的 细节 ， 来 表明 我 们 完全 有 可 能 建造 一 种 电 
子 机 右 ， 它 可 以 计算 出 任何 一 种 人 们 能 够 找到 计算 方法 的 函数 。 这 种 机 絮 由 一 个 处 理 右 
(CPU) 和 一 个 存储 器 CRAM) 构成 。 在 一 个 反复 执行 的 指令 循环 中 ， 处 理 需 执行 存放 在 
RAM 中 的 一 串 机 器 指令 ， 对 同样 存储 在 RAM 中 的 数据 进行 操作 。 机 器 指令 实现 了 最 基 
本 的 操作 ， 包 括 算术 运算 、 内 存 读 写 以 及 流程 控制 。 每 一 条 指令 都 是 由 CPU 中 的 某 个 电 
路 来 实现 的 。 我 们 展示 了 当 RAM 以 栈 的 方式 存储 数据 时 如 何 设计 一 个 简单 的 指令 集 。 执 
行 基本 操作 、 选 择 以 及 重复 迭代 这 些 指 令 ， 赋予 了 计算 机 非常 强大 的 计算 功能 。 

过 程 调用 机 制 允 许 我 们 单独 编写 一 些 程序 ， 并 在 任何 其 他 程序 中 的 任意 位 置 对 它 进 
行 调用 。 在 处 理 异 常 条 件 时 ,操作 系统 使 用 过 程 机 制 来 中 断 程序 。 

本 章 的 最 后 讨论 了 选择 不 确定 性 问题 ， 即 仲裁 电路 在 同时 接收 两 个 输入 的 时 候 有 可 
能 进入 一 种 亚 稳 态 ， 从 而 无 法 在 下 一 个 时 钟 节拍 到 来 之 前 做 出 选择 。 这 个 问题 源 于 电路 的 
物理 设计 ， 可 以 通过 暂时 关闭 时 钟 来 解决 ， 直 到 电路 进入 稳 态 。 

我 们 对 机 器 的 上 述 讨 论 再 次 强调 了 计算 过 程 中 物理 部 件 的 核心 重要 性 。 机 器 中 的 所 
有 指令 和 数据 都 是 以 二 进 制 0 和 1 的 形式 存储 在 电路 和 媒介 中 的 。 而 0 和 1 就 是 媒介 中 不 
同 状态 的 表示 。 指 令 按照 预先 约定 的 方式 精确 地 操作 这 些 状态 。 而 程序 其 实 就 是 按照 某 些 
精确 模式 将 计算 方法 中 的 步骤 组 织 而 成 的 一 个 指令 序列 。 机 器 读 取 程 序 中 的 指令 ， 并 在 数 
据 上 执行 这 些 指 令 ， 所 有 的 一 切 都 是 自动 进行 的 。 机 器 中 的 电路 只 是 简单 遵循 电子 和 物理 
规律 ， 它 并 不 需要 理解 穿梭 于 其 中 的 各 个 电信 号 的 含义 。 

本 章 所 提 到 的 栈 结构 仅仅 是 执行 程序 可 能 的 各 种 模型 中 的 一 种 。 每 一 种 模型 都 有 自 

[82] 己 的 规则 和 机 器 架构 ， 但 它们 都 完成 同一 件 事 : 控制 电路 来 读 取 输 入 并 计算 输出 。 
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对 计算 机 真正 有 兴趣 的 人 最 好 对 底层 硬件 的 工作 原理 有 所 了 解 ， 否 则 可 能 会 设计 出 
常 奇 怪 的 程序 。 
——Donald Knuth 
程序 设计 是 应 用 数学 最 困难 的 分 支 之 一 ， 可 怜 的 数学 家 们 最 好 还 是 采 在 理论 数学 的 
围栏 里 别 出 来 。 
—Edsger Dijkstra 


Ada Lovelace 据说 是 人 类 历史 上 第 一 个 计算 机 程序 员 。1843 年 ， 她 在 “Babbage 分 析 
机 笔记 ”中 设计 了 一 个 程序 : 这 个 程序 可 以 让 分 析 机 计算 产生 一 个 伯 努 利 数 列 。 遗 憾 的 是 ， 
Babbage 没有 能 够 完成 分 析 机 的 构造 ， 因 此 ，Lovelace 设计 的 这 个 程序 也 从 来 没有 真正 运 
行 过 。 

对 于 程序 的 输入 与 输出 数据 , Babbage 计划 使 用 提花 织 机 时 代 的 打 孔 卡片 来 表示 它们 。 
历史 学 家 可 能 会 认为 那些 为 织 布 机 确定 卡片 序列 的 工人 也 是 程序 员 : 他 们 为 织 布 机 的 运行 
指定 了 准确 的 规则 ， 而 且 还 真实 看 到 了 这 些 规则 的 运行 结果 。 现 代 程 序 员 则 会 认为 织 布 机 

程序 员 不 是 计算 机 程序 员 ， 因 为 织 布 机 是 无 法 计算 数学 函数 的 。 

历史 学 家 也 可 能 会 认为 一 个 发 明了 某 种 算法 的 数学 家 也 是 程序 员 ， 例 如 ，Newton 提 
出 的 求解 联 立 方程 组 的 消 元 法 (1670 )， 或 者 Napier 提出 的 对 数 运算 计算 方法 (1614 )。 
现代 程序 员 同 样 也 很 有 可 能 不 会 认同 这 种 观点 ， 因 为 这 些 算法 并 不 是 为 一 个 特定 的 机 器 设 
计 的 。 

BE Lovelace 的 程序 出 现 近 100 年 后 ， 才 出 现 了 真正 运行 在 电子 计算 机 上 的 程序 。 这 
个 时 代 的 第 一 批 程序 员 是 为 ENIAC 计算 机 编写 程序 的 女性 们 : 她 们 在 一 个 插 线 板 上 通 
过 在 不 同 的 插 孔 之 间 连 线 来 指定 程序 的 行为 (1949 ) ( 见 第 1 章 图 1.3 )。 两 年 之 后 ， 在 
EDSAC 和 EDVAC (第 一 批 具有 “存储 程序 ”功能 的 计算 机 ) 上 ， 程 序 员 开 始 在 纸 带 上 采 
用 二 进 制 数字 的 方式 编写 算法 。 在 第 二 次 世界 大 战 期 间 ， 为 军 方 计算 弹道 轨迹 的 女性 们 也 
是 程序 员 ， 只 不 过 她 们 编写 的 程序 不 是 针对 机 器 的 指令 ， 而 是 用 于 指导 自己 操作 机 械 式 计 
算 机 。 实 际 上 ， 她 们 的 角色 就 是 一 种 人 力 计算 器 。 
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从 一 开始 ， 程 序 员 就 发 现 他 们 花费 了 大 量 的 时 间 去 发 现 自己 编写 的 程序 中 的 错误 
( Wilkes 1985 )。 即 使 是 最 优秀 的 程序 员 也 无 法 完全 避免 错误 的 出 现 。 于 是 ， 计 算 机 的 设 
计 者 开始 设计 更 高 级 的 程序 设计 语言 和 动态 错误 检查 方法 ， 以 尽 可 能 减少 程序 中 错误 的 出 
现 。 这 样 的 努力 至 今 为 止 仍 在 进行 。 设 计 出 没有 错误 的 软件 不 仅仅 是 一 个 可 靠 性 问题 ， 还 
是 一 个 安全 性 问题 (包括 软件 自身 的 信息 安全 以 及 软件 对 环境 的 安全 )。 

本 章 的 目的 是 想 展 示 这 样 一 个 事实 : 虽然 现实 中 人 们 发 明了 数量 众多 的 计算 机 语言 ， 
但 所 有 的 计算 机 语言 都 具有 翻译 器 的 基础 角色 ， 即 自动 地 将 程序 员 书 写 的 源 程序 翻译 成 机 
器 可 理解 的 指令 。 进 一 步 ， 人 们 发 明了 一 类 被 称 为 “编译 器 生成 器 ”的 程序 : 它们 接收 一 
种 计算 机 语言 的 语法 描述 ， 然 后 输出 一 个 针对 这 种 语言 的 编译 器 程序 。 自 动 化 的 编译 器 生 
成 极 大 地 降低 了 计算 机 语言 的 实现 成 本 。 
程序 、 程 序 员 和 程序 设计 语言 

程序 是 对 算法 的 表达 ， 并 可 以 在 一 台 计 算 机 上 运行 。 程 序 设计 语言 是 一 种 人 造 语言 ， 
具有 其 自身 的 用 于 表达 程序 的 语法 规则 。 程 序 员 是 一 个 采用 特定 的 程序 设计 语言 编写 程序 
的 人 : 程序 员 需 要 保证 他 们 编写 的 程序 能 够 在 计算 机 上 正确 运行 并 完成 期 望 的 工作 任务 。 

在 第 一 种 商业 程序 设计 语言 在 20 世纪 50 年 代 末 出 现 之 后 ， 各 种 程序 设计 语言 如 雨 
后 春 血 般 不 断 出 现 。 在 2014 年 ， 维 基 百 科 上 给 出 了 一 个 包含 500 多 个 程序 设计 语言 的 列 
表 ， 其 中 的 每 一 种 语言 都 曾经 或 正在 被 用 于 商业 软件 的 开发 。 如 果 再 考虑 每 种 语言 的 轻微 
变 体 、 更 新 或 升级 等 因素 ， 我 们 可 以 发 现 数 千 种 程序 设计 语言 *。 每 一 种 语言 都 有 其 设计 
目标 ， 通 常 是 针对 特定 领域 的 问题 对 计算 设计 进行 优化 。 数 以 千 计 的 领域 都 涉及 计算 ， 因 
此 ， 存 在 数 千 种 程序 设计 语言 也 非常 自然 。 

K 5.1 给 出 一 些 重要 的 程序 设计 语言 。 其 中 ， 对 于 最 初出 现 的 4 种 语言 ， 有 3 种 至 
今 仍 在 使 用 。 只 有 Algol 语言 不 再 被 使 用 。 但 是 ， 许 多 后 来 出 现 的 程序 设计 语言 都 继承 了 
Algol 的 语法 规则 。 


表 5.1 一 些 广泛 使 用 的 程序 设计 语言 


语言 目 的 
Fortran 对 数学 计算 公式 的 有 效 处 理 
Algol 支持 递归 过 程 的 通用 程序 设计 语言 
hes me 对 Church 演算 中 lambda 表达 式 的 有 效 表达 (第 一 个 使 用 在 人 工 智 能 领域 的 
程序 设计 语言 ) 
Cobol 对 商业 、 人 金融 、 管 理 领域 计算 操作 的 支持 


APL 1962 面向 数组 函数 处 理 的 专用 语言 


BAKY 


语 


Ill} 


JCL, Shell 


PL/I 


Simula 


Pascal 
Smalltalk 


Prolog 


Ada 
Sisal 
Perl 


Java 


Python 


出 现时 间 


1967 
1970 


1971 
1972 
1973 


1974 
1983 
1983 
1987 
1995 


2000 


67 


( & ) 


目 的 

操作 系统 中 的 任务 处 理 控制 语言 ， 其 后 继 者 是 用 于 Multics (1968 ) 和 Unix 
(1972) 操作 系统 的 Shell 语言 

基于 Algol 的 通用 程序 设计 语言 ， 包 含 了 一 些 面向 商业 数据 处 理 和 系统 程序 
设计 的 特征 

第 一 个 面向 对 象 的 程序 设计 语言 ， 用 于 离散 事件 仿真 

支持 结构 化 程序 设计 的 类 Algol 语言 ， 在 程序 设计 教学 中 广泛 使 用 

通用 的 面向 对 象 程序 设计 语言 ， 从 Simula 借鉴 了 消息 传递 机 制 ; 1980 年 被 


il 
=% 
会 


对 逻辑 关系 的 有 效 推理 (应 用 于 人 工 智 能 、 自 然 语言 处 理 、 定 理 证 明 等 领域 ) 


面向 系统 软件 的 程序 设计 语言 ， 一 开始 用 于 Unix 内 核 的 编写 ， 后 来 用 于 
Linux 操作 系统 的 编写 


基于 抽象 数据 类 型 的 面向 对 象 语言 

美国 国防 部 指定 的 一 种 可 用 于 军用 软件 开发 的 程序 设计 语言 

基于 函数 组 合 的 语言 ， 适用 于 具有 并 行 处 理 能 力 的 计算 机 

广泛 应 用 于 Web 页 面 设计 的 脚本 语言 

具有 跨 平 台 特 性 的 面向 对 象 语言 

通用 程序 设计 语言 ， 支 持 函 数 式 、 命 令 式 以 及 面向 对 象 式 编程 ， 强 调 程序 的 
易 读 性 


Algol 语言 的 重要 创新 之 一 是 采用 形式 化 的 方式 来 描述 语法 。 这 种 形式 化 方法 被 称 
为 Backus-Naur 范式 ,或 者 简称 为 BNF 范式， 以 其 发 明 者 John Backus 和 Peter Naur fit 
名 (Backus 1959, Knuth 1964), BNF 范式 能 够 清晰 地 定义 一 种 程序 设计 语言 的 结构 以 
及 如 何 将 这 种 语言 结构 忠实 地 翻译 为 相应 的 机 器 代码 。BNF 范式 也 是 构造 编译 器 程序 的 
基础 。 后 来 的 研究 工作 使 得 人 们 可 以 开发 出 非常 高 效 的 编译 器 ， 甚 至 编译 器 生成 器 〈 即 
能 够 根据 一 种 语言 的 语法 规则 自动 生成 相应 的 编译 器 ) 。 下 面 我 们 简单 介绍 编译 器 的 基 


本 原理 。 


这 里 给 出 了 一 个 BNF 规约 的 片段 ， 其 中 使 用 了 赋值 语句 在 算术 表达 式 与 数字 和 变量 


之 间 建 立 关 联 : 


<assign> 
<A> 
<M> 
<F> 
<aop> 


<mop> 


::= <var> = <A> 


::= <A><aop><A> | <M> 


::= <M><mop><M> | <F> 


::= (<A>) 
:= + |- 


"= *|/ 


|x 
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其 中 ， 每 一 对 尖 括 号 都 声明 了 一 个 语法 元 素 : 尖 括 号 中 的 字符 串 即 为 该 语法 元 素 的 名 
称 。 元 素 <A>、<M>、<F> 分 别 表示 加 减 表达 式 、 乘 除 表 达 式 、 因 子 表达 式 。 元 素 <aop> 
和 <mop> 分 别 表示 加 减 操作 符 和 乘除 操作 符 。 双 冒号 加 等 于 号 “ ::=” 表 示 “ 被 定义 为 ”的 
含义 。 竖 直线 “|” 表 示 “ 或 ”的 含义 。 字 符 x 表示 任何 变量 名 或 任何 数字 常量 ( 见 图 5.1 )。 
这 种 语法 还 规定 了 与 算术 运算 相同 的 运算 操作 优先 级 ， 即 : 乘除 运算 的 优先 级 要 高 于 加 
减 运算 。 在 后 面 的 一 节 中 ， 我 们 会 展示 一 个 编译 器 如 何 使 用 这 些 语法 树 去 生成 相应 的 机 器 
代码 。 





图 5.1 赋值 语句 X=A+(B - C)*D 可 以 被 两 种 类 型 的 语法 树 所 表达 。 一 种 是 图 中 左边 所 示 的 语法 
W: 它 基 于 文字 的 语法 去 解释 这 个 表达 式 的 语法 。 另 一 种 是 图 中 右 侧 所 示 的 更 简洁 的 语法 
树 ， 其 中 仅仅 保留 了 操作 符 和 操作 数 。 在 结构 确定 之 后 ， 原 始 语句 中 的 括号 没有 必要 存在 ， 
因为 这 种 表示 方法 具有 与 算术 运算 相同 的 运算 符 优 先 级 


程序 设计 实践 

程序 设计 是 一 种 编写 在 计算 机 上 运行 的 指令 序列 的 实践 活动 。 程 序 员 的 工作 包括 两 
个 主要 部 分 : 

1) 针对 一 个 问题 设计 相应 的 可 以 在 计算 机 上 运行 的 解决 方案 ( 即 程序 )。 

2 ) 验证 一 个 程序 在 计算 机 上 的 运行 结果 是 否 正确 地 解决 了 所 要 解决 的 问题 。 
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在 程序 设计 中 ， 程 序 员 可 以 使 用 工具 来 辅助 其 工作 。 其 中 ， 设 计 相 关 的 工具 包括 程 
序 设 计 语 言 和 图 形 化 编译 器 (图形 化 编译 器 可 以 确保 程序 员 设计 的 程序 完全 符合 程序 设计 
语言 的 语法 规则 )。 编 译 器 、 链 接 器 和 解释 器 等 工具 可 以 将 一 个 源 程序 转换 为 相应 的 机 右 
指令 序列 。 测 试 和 调试 工具 可 以 帮助 程序 员 定 位 并 修正 错误 。 函 数 库 和 版 本 控制 工具 可 以 
保证 程序 的 最 新 性 以 及 对 程序 的 有 效 复 用 。 在 使 用 这 些 工具 的 过 程 中 ， 程 序 员 就 像 是 一 个 
传统 的 技术 工匠 。 

不 同 级 别 的 程序 员 通 常 具有 不 同 的 程序 设计 技能 水 平 。 一 个 新 手 程序 员 通 常会 花费 
大 量 的 时 间 来 理解 程序 设计 语言 的 语法 以 及 一 些 基 础 的 算法 。 中 级 程序 员 能 够 在 无 需 指导 
的 情况 下 完成 相当 数量 的 标准 程序 设计 任务 。 高 级 程序 员 能 够 进行 大 型 软件 系统 的 设计 与 
实现 ， 并 能 够 在 系统 的 不 同 抽象 层次 上 灵活 迁移 。 程 序 员 的 生产 力 〈 例 如 可 以 通过 代码 行 
数 进行 度量 ) 通常 具有 非常 大 的 差异 : 很 多 优秀 的 程序 员 可 以 达到 中 级 程序 员 10 倍 以 上 
的 生产 力 ， 一 些 非常 优异 的 程序 员 甚至 可 以 达到 50 倍 。 

一 些 程序 员 已 经 成 为 传奇 式 的 人 物 ， 因 为 他 们 编写 的 程序 对 世界 产生 了 重大 的 影响 。 
John MacCormick (2012) 列举 出 了 9 个 著名 的 程序 算法 ， 其 设计 者 包括 Len Adleman, 
Sergey Brin, Jim Gray, Tom Mitchell, Larry Page, Ron Rivest, Adi Shamir 等 人 。 由 这 
些 伟大 的 程序 员 所 提出 的 一 些 设计 思想 已 经 成 为 计算 的 基本 原理 。 

许多 软件 系统 因 其 巨大 的 影响 力也 被 视 为 传奇 。 例 如 ，VM/370、Multics Unix, 
Windows 以 及 MacOS 等 操作 系统 ; Oracle 数据 库 系 统 ; Akamai 页 面 缓存 系统 ; TCP/IP 
协议 徐 ; MARE (DNS); 被 出 版 社 使 用 的 数字 对 象 定位 符 ( DOI)。 这 些 系统 的 一 些 开 
发 者 也 因此 成 为 传奇 人 物 ， 包括 Vint Cerf. Fernando Corbato, Bill Gates, Bill Joy, Bob 
Kahn, Alan Kay, Butler Lampson, Paul Mockapetris、 Roger Needham, Jon Postel, Rick 





Rashid, Dennis Ritchie, Jerry Saltzer, Ken Thompson 等 。 

大 型 的 软件 系统 通常 包括 数量 众多 的 不 同 软件 程序 ， 需 要 数 百 甚 至 数 千 程序 员 的 群 
体 协同 才能 实现 。 操 作 系统 和 微软 的 办 公 软 件 应 用 Office 是 这 种 大 型 软件 系统 的 典型 实 
例 。 如 何 组 织 数量 众多 的 程序 员 协 同 工 作 以 达到 生产 力 的 最 大 化 、 错 误 率 的 最 小 化 以 及 软 
件 的 按期 交付 ， 绝 不 仅仅 依赖 于 天 才 型 的 程序 员 。 这 个 问题 对 项 目的 协同 管理 和 测试 提出 
了 重大 的 挑战 。 这 种 挑战 到 目前 为 止 还 在 困扰 着 软件 产业 。Fred Brooks (20 世纪 60 年 代 
IBM 360 操作 系统 项 目的 管理 者 ) 将 他 对 大 型 软件 项 目 组 织 和 管理 的 很 多 深刻 见解 都 记录 
在 《The Mythical Man Month 》(Brooks 1995 ) 这 部 著作 中 。 在 第 10 章 中 ,我 们 将 对 大 型 
软件 系统 设计 的 基本 原则 进行 探讨 。 
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程序 中 的 错误 
自从 20 世纪 40 年 代 软 件 出 现 以 来 ， 在 人 们 的 印象 中 ， 软 件 总 是 非常 容易 出 错 。 程 
序 员 总 是 被 程序 错综复杂 的 结构 弄 得 头 尝 脑 涨 ， 并 且 不 得 不 花费 大 量 的 时 间 去 消除 自己 编 


写 的 程序 中 的 错误 ， 去 不 断 地 改进 程序 以 使 得 程序 能 够 适应 花样 繁多 的 各 种 外 部 异常 情况 
( 见 图 5.2). 





图 5.2 一 个 软件 模块 的 输出 错误 通常 由 两 种 情况 引起 : 一 种 是 由 软件 模块 中 存在 的 故障 (缺陷 ) 引 
起 ; 另 一 种 是 由 错误 的 输入 数据 所 引起 。 发 现 程序 中 的 缺陷 或 检测 错误 的 输入 数据 通常 非 
常 复杂 

大 多 数 的 物理 系统 遵守 连续 性 法 则 ， 它 则 保证 了 一 个 自 变 量 的 微小 变化 在 因 变 量 上 

也 仅仅 会 导致 一 个 微小 的 变化 。 因 此 ， 物 理 系 统 对 微小 错误 具有 天 然 的 容忍 能 力 。 很 多 生 
[88] WAS (包括 人 类 和 动物 的 免疫 系统 ) 具有 自我 检测 和 修复 的 机 能 一 一 通过 反馈 和 修正 来 
应 对 错误 。 

与 之 相反 ， 由 软件 创造 出 来 的 虚拟 世界 则 对 错误 具有 高 度 的 灵敏 性 。 程 序 中 一 个 二 
进 制 位 上 内 容 的 改变 (从 0 变 为 1, 或 从 1 变 为 0) 都 有 可 能 对 程序 的 行为 和 运行 结果 带 
来 巨大 的 影响 。 而 且 ， 人 们 可 以 非常 容易 地 编写 出 与 物理 定律 相 冲突 的 软件 ， 这 些 软件 在 
与 外 部 世界 交互 时 就 会 导致 错误 的 发 生 。 消 除 或 减少 程序 中 的 错误 不 是 一 件 简单 的 事情 ， 
它 涉及 从 用 户 期 望 、 设 计 者 意图 、 源 程序 到 机 器 代码 的 复杂 变换 过 程 中 的 各 个 环节 〈 见 
图 5.3 )。 

对 消除 错误 的 渴望 促使 程序 设计 语言 的 设计 者 在 语言 中 加 入 了 各 种 各 样 的 消 错 结 
构 。 经 过 多 年 的 发 展 ， 目 前 比较 成 熟 的 消 错 结构 包括 类 型 、 子 程序 、 模 块 、 异 常 、 对 
象 、 包 、 语 法 编辑 器 、 调 试 器 ， 以 及 试图 缩减 程序 语法 与 问题 域 语 义 之 间距 离 的 新 型 语 
言 。 虽 然 已 经 取得 了 很 大 的 进展 ， 但 如 何 消除 程序 中 的 错误 对 编程 者 而 言 仍然 是 一 个 巨 
大 的 挑战 。 
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意图 


功能 F 的 规约 
@ 






图 53 在 将 设计 者 的 意图 翻译 为 机 器 可 执行 程序 的 过 程 中 非常 容易 发 生 错误 。 具 体 而 言 ， 有 4 
种 导致 错误 发 生 的 原因 。( 1 ) 一 个 程序 的 规约 没有 准确 地 反映 设计 者 的 意图 或 错误 地 反 
映 了 用 户 的 期 望 。( 2 ) 程序 员 在 程序 中 引入 了 错误 (例如 ， 程 序 员 对 程序 的 运行 环境 做 
出 了 不 够 准确 的 假设 )， 或 者 编译 器 自身 具有 错误 或 被 恶意 植 人 了 特洛伊 木马 (这 将 会 
导致 源 程序 和 机 器 代码 之 间 不 再 具有 等 价 关系 )。( 3 ) 执行 程序 的 计算 机 存在 由 各 种 因 
素 导 致 的 错误 、 缺 陷 或 故障 。( 4 ) 用 户 对 计算 机 的 期 望 行为 与 计算 机 的 实际 行为 之 间 存 
在 不 一 致 。 自 动 验证 器 试图 消除 由 第 2 种 原因 导致 的 错误 。 容 错 系统 设计 方法 试图 消除 
由 第 3 种 原因 导致 的 错误 。 基 于 原型 的 用 户 反馈 机 制 则 试图 消除 由 其 他 两 种 原因 导致 的 

错误 
对 消除 错误 的 渴望 促使 软件 工程 师 (更 加 专业 化 的 程序 员 ) 采用 了 传统 的 4 阶段 工程 
设计 过 程 : (1) 需求 , (2) 规约 ，(3 ) 原型 ，( 4 ) 测试 。 在 需求 阶段 ， 工 程 师 通 过 与 用 
户 或 问题 域 中 的 其 他 利益 相关 者 的 交流 ， 确 认 当 前 开发 的 软件 系统 所 有 需要 或 不 需要 的 行 
为 。 在 规约 阶段 ， 工 程 师 采 用 特定 的 技术 语言 对 满足 用 户 需 求 所 必需 的 各 种 功能 进行 形式 
化 的 准确 描述 。 在 原型 阶段 ， 工 程 师 实现 一 个 可 运行 的 软件 系统 原型 。 在 测试 阶段 ， 工 程 
师 对 软件 原型 进行 各 种 各 样 的 测试 ， 检 查 该 原型 能 否 表现 出 规约 中 规定 的 软件 行为 或 能 否 
满足 用 户 的 预期 。 在 这 个 过 程 的 实际 执行 中 ， 工 程 师 会 根据 最 新 的 信息 对 相关 的 阶段 和 活 
动 进行 不 断 地 迭代 。 例 如 ， 在 撰写 规约 的 过 程 中 ,工程 师 可 能 会 发 现 一 个 需求 具有 二 义 
性 ; 这 时 ， 他 们 必须 要 与 用 户 进行 交互 ， 以 解决 这 个 二 义 性 问题 。 在 实现 原型 的 过 程 中 ， 
工程 师 可 能 会 发 现 某 个 规约 可 能 会 导致 严重 的 效率 问题 ， 从 而 返回 对 规约 或 原始 需求 进行 
调整 。 在 测试 过 程 中 ， 工 程 师 可 能 会 发 现 一 个 性 能 问题 或 一 个 错误 ， 从 而 返回 对 实现 代码 
进行 检查 、 对 规约 进行 审查 或 与 用 户 进行 必要 的 交互 。 对 于 包含 众多 模块 、 涉 及 大 规模 开 
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发 者 的 大 型 软件 系统 而 言 ， 这 样 的 工作 流程 是 非常 复杂 的 ; 因此 ， 通 常会 使 用 专业 的 决策 
追踪 系统 、 协 同 支持 系统 以 及 版 本 控制 系统 等 软件 工具 对 整个 开发 过 程 及 制品 进行 系统 化 
的 管理 。 

即使 一 个 软件 项 目的 开发 者 都 具有 丰富 的 开发 经 验 ， 软 件 项 目的 实施 进度 和 成 本 也 
通常 会 远 远 超 出 预期 和 预算 。 一 般 认 为 ， 由 于 预算 严重 超支 、 交 付 时 间 严 重 延迟 或 重要 
功能 的 缺失 等 原因 ，60% 的 软件 开发 项 目 都 不 能 算是 成 功 的 ; 30% 的 软件 开发 项 目 在 没 
有 开发 完成 前 就 会 被 取消 *。 虽 然 项 目 失败 的 原因 通常 指向 管理 者 对 时 间 和 成 本 的 错误 估 
算 , 但 其 背后 更 深刻 的 原因 则 是 软件 系统 的 异常 复杂 性 ， 这 种 复杂 性 远 远 超过 了 任何 一 个 
经 验 丰 富 的 软件 开发 者 的 能 力 范围 。 可 以 看 到 ， 寻 求 有 效 的 软件 设计 基本 原理 也 具有 非常 
重要 的 经 济 原因 。 
自动 翻译 

程序 设计 的 一 个 重要 部 分 是 如 何 将 程序 员 编写 的 源 程序 转换 / 翻译 为 机 器 可 执行 的 程 
序 。 目 前 存在 两 种 方式 来 实现 这 种 翻译 : 编译 器 和 解释 器 。 编 译 器 是 这 样 一 个 程序 : 它 接 
受 源 程序 作为 其 输入 数据 ， 根 据 程序 设计 语言 的 语法 规则 解析 形成 相应 的 语法 树 ， 最 后 生 
成 相应 的 机 器 代码 作为 输出 。 解 释 器 也 是 一 个 程序 : 它 也 对 输入 程序 进行 语法 解析 ， 但 是 
并 不 会 生成 对 应 的 机 器 代码 ， 而 是 根据 解析 的 结果 实时 调用 相应 的 系统 操作 ， 系 统 操作 是 
一 个 已 经 被 编译 为 机 器 代码 的 子 程序 。 经 过 多 年 的 持续 发 展 ， 这 两 种 自动 翻译 方式 之 间 逐 
渐 失 去 了 清晰 的 边界 。 两 者 之 间 最 显著 的 一 个 差别 可 能 是 编译 器 只 需要 对 程序 进行 一 次 翻 
译 即 可 以 生成 多 次 运行 的 机 器 代码 ， 而 解释 器 则 是 在 每 次 程序 执行 的 过 程 中 都 需要 进行 实 
时 的 翻译 。 

下 面 我 们 来 了 解 一 下 编译 器 的 工作 流程 。 编 译 器 的 工作 目标 是 将 一 个 源 程序 翻译 为 
严格 对 应 的 机 器 指令 序列 〈 即 ， 不 能 遗漏 源 程 序 声明 的 行为 ， 也 不 能 增加 任何 新 的 行为 )。 
为 了 实现 这 一 目标 ,我 们 需要 两 个 基本 条 件 。 首 先 ， 这 个 程序 设计 语言 的 语法 (以 BNF 
范式 的 方式 表示 ) 必须 不 能 存在 二 义 性 ， 即 : 对 于 一 段 合 法 的 源 程序 字符 串 只 能 存在 一 个 
唯一 的 语法 树 与 其 对 应 。 第 二 ， 在 翻译 过 程 中 ， 一 个 语法 树 只 能 被 影射 到 一 个 唯一 的 机 器 
指令 序列 上 “。 

为 简化 起 见 ， 我 们 假设 基于 BNF 语法 已 经 解析 形成 了 一 个 简单 的 语法 树 : 其 中 ， 
每 个 叶子 节点 代表 一 个 常量 或 一 个 变量 名 ， 每 个 中 间 节 点 则 代表 一 种 操作 (图 5.1 中 即 
展示 了 这 样 一 种 语法 树 )。 我 们 还 假设 这 个 程序 设计 语言 支持 第 4 章 中 提 及 的 4 种 基本 
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结构 : 赋值、 顺序、 分支、 循环。 基于 这 四 种 结构 具有 完整 的 表达 能 力 ， 可 以 用 它们 
来 编写 任何 一 个 算法 ; 如 果 能 对 这 四 种 结构 进行 翻译 ,那么 就 能 对 任何 一 个 源 程 序 进 
行 翻译 。 

图 5.4 到 图 5.7 分 别 展 示 了 编译 器 如 何 将 赋值 语句 、 顺 序 语 句 、 分 支 语句 、 循 环 语 名 
翻译 为 机 器 代码 的 过 程 。 图 中 左 侧 展 示 了 每 种 语句 结构 对 应 的 语法 树 ， 图 中 右 侧 则 展示 了 
实现 左 侧 语法 树 的 一 个 机 器 指令 模版 。 








图 5.4 该 图 展示 了 编译 器 将 图 5.1 中 所 示 的 赋值 语句 X= A + (B - C)*D 翻译 为 机 器 代码 的 过 程 。 
编译 器 首先 将 这 个 赋值 语句 解析 为 一 个 中 间 节 点 为 操作 符 、 叶 子 节 点 为 操作 数 的 语法 树 。 
然后 ， 编 译 器 对 这 棵 树 进 行 一 次 闭 时 针 饥 历 〈 见 图 中 虚线 )， 并 且 按 照 遍 历 顺 序 将 其 遇 到 的 
每 个 叶子 节点 或 操作 符 输 出 到 一 个 指令 栈 中 。 输 出 结果 《〈 见 图 中 右 侧 ) 是 一 个 可 以 在 栈 机 器 
上 正确 求解 该 赋值 语句 的 指令 序列 


S1; S2 





个 语句 解析 为 对 应 的 语法 树 ， 然 后 将 这 两 个 语法 树 通过 一 个 顺序 操作 符 〈 用 分 号 表示 ) 进行 
组 合 形成 一 颗 更 大 的 语法 树 。 接 下 来 ， 编 译 器 对 这 棵 语法 树 进行 逆 时 针 遍 历 从 而 形成 图 右 
侧 的 代码 模式 ， 即 : 将 S1 对 应 的 代码 放 在 S2 对 应 的 代码 之 前 
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If C then S1 else S2 LA F 
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图 5.6 该 图 展示 了 编译 器 将 一 个 分 支 语句 翻译 为 机 器 代码 的 过 程 。 编 译 器 首先 将 分 支 语句 的 三 个 
构成 成 分 (条 件 表达 式 C、 语 句 块 S1 和 S2 ) 解析 为 对 应 的 语法 树 ， 并 通过 “ if” 操 作 符 将 
这 三 颗 语 法 树 进行 连接 。 然 后 ， 编 译 器 对 连接 形成 的 语法 树 进行 逆 时 针 遍 历 ， 生 成 图 右 侧 
所 示 的 代码 模式 。 在 每 一 个 代码 块 之 后 ， 编 译 器 插入 了 一 个 跳 转 语句 用 于 保证 只 有 当 C 为 
真 时 才 执 行 代码 块 S1 且 只 有 当 C 为 假 时 才 执 行 代码 块 S22。 指令 GOF (Go On False, Aik 
时 跳 转 ) 假设 其 执行 时 栈 中 存在 一 个 布尔 变量 ,该 布尔 变量 的 取 值 由 指令 “LAF” 和 C 中 
的 代码 所 决定 


While C do S1 w: : LA exit 





exit: 
5.7 该 图 展示 了 编译 器 将 一 个 循环 语句 翻译 为 机 器 代码 的 过 程 。 编 译 器 首先 将 循环 语句 的 两 个 
构成 成 分 (条 件 表 达 式 C、 语 句 块 S1 ) 解析 为 对 应 的 语法 树 ， 并 通过 “ while ”操作 符 将 这 
两 颗 语 法 树 进行 连接 。 然 后 ,编译 器 对 连接 形成 的 语法 树 进行 逆 时 针 遍 历 ， 生 成 图 右 侧 所 
示 的 代码 模式 。 在 每 一 个 代码 块 之 后 ， 编 译 器 插入 了 一 个 跳 转 语句 用 于 保证 在 开始 执行 代 
码 块 S1 时 C 必须 为 真 且 一 旦 C 为 假 就 会 跳 过 代码 块 S1 
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将 树 转 换 为 指令 的 方法 称 为 “ 树 遍 历 ” . RITI DER EE ( 见 图 5.4 
中 虚线 路 径 ) 对 树 中 的 所 有 节点 进行 遍历 ; 每 一 个 叶子 节点 会 被 访问 一 次 ， 而 每 一 个 元 
操作 符 则 会 被 访问 k+ 1 次 ; 对 于 每 一 个 最 近 访 问 到 的 节点 ， 都 会 输出 相应 的 指令 。 

这 种 编译 方法 有 一 个 缺点 。 它 可 能 会 导致 在 源 程 序 和 机 器 代码 的 表现 形式 上 存在 很 
大 的 距离 。 这 种 距离 给 编译 器 的 编写 者 留 下 了 更 多 的 解释 空间 ， 有 可 能 会 导致 与 程序 语言 
设计 者 的 意图 发 生 偏 差 。 因 此 ， 这 也 增加 了 在 代码 中 存在 错误 的 可 能 性 “。 

为 了 缩小 这 种 表现 形式 上 的 距离 ， 程 序 语 言 设计 者 开始 对 目标 机 器 的 指令 集合 进行 
扩展 。 这 些 扩展 的 指令 被 实现 为 独立 编译 和 验证 的 程序 。 因 此 ， 编 译 器 可 以 直接 将 源 程序 
中 的 一 些 操作 直接 翻译 为 对 应 的 扩展 指令 ， 从 而 减少 了 可 能 存在 的 翻译 错误 ( 见 图 5.8 )。 





翻译 后 的 程序 
厂 





图 5.8 虚拟 机 是 程序 执行 的 一 种 基本 模式 。 图 中 给 出 了 一 台 带 有 特定 指令 集合 的 原始 机 器 。 虚 拟 
机 则 是 对 这 台 原 始 机 器 的 扩展 ， 即 在 原始 机 器 指令 集合 的 基础 上 ， 形 成 了 一 组 粒度 更 大 的 
扩展 指令 (图 中 标示 为 p 的 节点 )。 因 此 ， 翻 译 器 可 以 将 源 程序 语法 树 上 的 操作 节点 直接 对 
应 到 虚拟 机 中 相应 的 扩展 指令 上 。Java 语言 就 是 基于 虚拟 机 的 方式 进行 程序 执行 的 。Java 
翻译 器 将 源 程序 翻译 为 “ 字 节 码 ”( bytecode)， 即 : 一 个 能 在 Java 虚拟 机 (JVM) 上 执行 的 
代码 序列 。 对 每 一 种 不 同 的 操作 系统 ( 即 原始 机 器 )， 都 需要 开发 各 自 的 JVM 实现 ， 即 : 在 
当前 操作 系统 指令 集合 的 基础 上 构建 JVM 支持 的 扩展 指令 集合 。 通 过 JVM 的 支持 ，Java 
语言 具有 了 良好 的 可 移植 性 


Java 虚拟 机 (JVM) 是 这 种 扩展 指令 方法 的 典型 代表 。JVM 的 指令 〈 称 为 “ 字 节 码 ”) 
实现 了 Java 对 象 上 的 各 种 操作 。Java te Be Java 程序 翻译 为 对 应 的 字 节 码 ， 而 不 
是 翻译 到 更 底层 的 原始 机 器 指令 上 。JVM 的 指令 集合 实际 上 就 是 一 组 粒度 更 大 的 可 调用 程 
序 过程 ， 这 些 过 程 已 经 事先 被 编译 为 原始 机 器 指令 序列 。 这 种 两 层 的 设计 使 得 Java 具有 很 
好 的 可 移植 性 。 对 于 任何 一 个 操作 系统 ， 都 可 以 开发 相应 的 JVM， 将 Java 的 字 节 码 指令 
集 翻译 为 当前 操作 系统 所 支持 的 原始 指令 。 因 此 ， 由 Java 编译 器 输出 的 字 节 码 程序 可 以 在 
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任何 操作 系统 的 JVM 上 执行 。 任 何 一 个 用 户 都 可 以 在 自己 的 机 器 上 编写 和 编译 一 个 Java 
序 ， 且 编译 后 的 Java 程序 可 以 在 无 需 任 何 改动 的 情况 下 在 任何 具有 JVM 的 机 器 上 运行 。 

操作 系统 也 是 虚拟 机 的 一 个 典型 代表 。 操 作 系 统管 理 各 种 类 型 的 资源 ， 包 括 进程 、 
虚拟 内 存 、 消 息 通道 、 文 件 、 输 入 -输出 、 目 录 等 。 对 每 一 种 类 型 的 资源 ， 操 作 系 统 都 
有 一 个 子 系统 对 其 进行 管理 。 例 如 ,文件 系统 通过 一 组 可 以 施加 在 文件 上 的 标准 操作 对 文 
件 进行 管理 ， 具 体 包括 创建 、 删 除 、 打 开 、 关 闭 、 读 、 写 6 种 操作 。 文 件 系 统 虚 拟 机 通过 
sien enue plan ee tare 
程 中 ,文件 系统 的 这 6 种 操作 被 封装 为 系统 调用 ， 避 免 了 通过 第 三 方 函 数 库 对 文件 进行 管 
理 的 过 程 中 可 能 存在 的 不 可 靠 因素 。 

操作 系统 中 存在 一 个 被 称 为 “shell ”的 构成 成 分 ， 其 实现 了 一 个 任务 控制 语言 。 用 
户 通过 与 shell 的 交互 ， 告 诉 操作 系统 他 们 想 要 执行 什么 程序 以 及 程序 的 输出 和 输出 放 在 
那里 。shell 将 用 户 的 一 条 命令 解析 为 一 棵 语法 树 ， 并 基于 语法 树 来 决定 进行 什么 系统 调 
用 ( 见 图 5.9 )。 不 同 于 编译 器 ，shell 对 每 一 条 用 户 命令 都 进行 一 次 实时 解析 。 这 也 是 程 
序 解释 执行 的 一 个 典型 实例 。 


sort<infile>outfile 


V1 = CREATEVM (sort) 
SETVM (v1, in = infile) 
SETVM (v1, out = outfile) 
sort STARTVM (V1) 


infile outfile 


图 5.9 Unix 的 shell 语言 可 以 让 用 户 输入 一 个 程序 的 名 字 ， 例 如 sort. sort 程序 从 用 户 指定 的 输入 文 
件 “infile” 中 读 取 数据 ， 然 后 将 程序 运行 结果 输出 到 用 户 指定 的 输出 文件 “outfile ”中 。 用 户 
在 系统 中 输入 这 些 信息 (如 图 中 左上 角 所 示 )。 符 号 “<” 表 示 下 面 即 将 出 现 的 是 输入 文件 的 名 
字 。 符 号 “ >” 表示 下 面 即将 出 现 的 是 输出 文件 的 名 字 。 解 析 器 将 这 行 信息 解析 为 如 图 中 左下 
方 所 示 的 语法 树 。 通 过 对 这 棵 语法 树 的 遍历 ，shell 解释 器 生成 了 如 图 中 右 侧 所 示 的 4 个 系统 调 
用 。 第 一 个 系统 调用 创建 了 一 个 可 以 运行 sort 程序 的 虚拟 机 。 第 二 个 和 第 三 个 分 别 指定 了 这 个 
虚拟 机 的 输入 和 输出 文件 。 最 后 一 个 系统 调用 触发 了 虚拟 机 的 执行 。 当 虚拟 机 执行 完毕 后 ( 即 
sort 程序 执行 结束 )， 用 户 输入 的 这 一 条 命令 也 执行 结束 ， 然 后 用 户 可 以 再 次 输入 一 个 新 的 命令 


clk 
1 


程序 设计 是 一 种 为 特定 的 问题 提供 计算 化 解决 方案 的 活动 。 好 的 程序 设计 是 一 种 通 
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过 专业 训练 和 长 期 实践 而 形成 的 技能 型 活动 。 

程序 设计 语言 具有 领域 特定 性 ， 它 使 得 编程 者 设计 特定 领域 问题 的 计算 化 解决 方案 
的 过 程 更 加 便利 。 由 于 程序 设计 语言 通过 BNF 范式 进行 语法 定义 上 且 人 们 都 知道 如 何 构造 
针对 BNF 语法 的 解析 器 ， 因 此 ， 对 于 任何 一 个 新 的 程序 设计 语言 而 言 ， 生 成 相应 的 编译 
器 是 一 件 非 常 容 易 的 事情 。 程 序 设计 语言 越 来 越 强 的 领域 特定 性 使 得 编程 者 的 意图 和 语言 
的 表达 能 力 之 间 的 语义 距离 越 来 越 小 。 

程序 中 的 错误 是 让 编程 者 非常 恼怒 的 一 件 事情 。 在 为 特定 问题 提供 计算 化 解决 方案 
的 过 程 中 ， 有 4 个 关键 因素 会 导致 错误 的 发 生 : 能 和 否 准确 地 表达 利益 相关 者 的 意图 和 期 
望 、 能 和 否 准确 地 进行 程序 设计 、 能 和 否 准确 地 编译 程序 、 能 和 否 准确 地 执行 程序 。 这 里 ,“ 准 
确 ” 一 词 的 含义 是 指 与 设计 者 的 原始 意图 一 致 。 系 统 设计 者 已 经 发 明了 一 系列 的 重要 技 
A, 来 帮助 程序 员 避 免 错 误 ， 进 而 编写 出 可 靠 、 可 用 、 安 全 的 程序 。 

从 源 程序 到 机 器 代码 的 翻译 过 程 可 以 完全 自动 化 地 进行 。 只 要 这 种 自动 化 翻译 过 程 
经 过 有 效 的 验证 ， 编 程 者 就 可 以 充分 相信 一 段 机 器 代码 程序 会 精确 地 表现 出 其 源 程序 所 
要 表达 的 行为 。 为 了 更 好 地 理解 ， 我 们 简单 介绍 了 编译 器 将 4 种 标准 程序 结构 (赋值 、 顺 
序 、 分 支 、 循 环 ) 翻译 为 机 器 代码 的 基本 过 程 。 

当 源 程序 与 机 器 代码 在 表达 形式 上 存在 较 大 的 语义 距离 时 ， 语 言 设计 者 和 编译 器 设计 者 
不 得 不 开始 考虑 如 何 应 对 在 自动 化 翻译 过 程 中 可 能 存在 的 错误 。 编 译 需 设计 者 使 用 的 机 器 代 
码 模式 在 程序 设计 者 看 来 可 能 没有 正确 地 表现 出 源 程序 设计 者 的 意图 。 减 少 这 种 错误 的 一 种 
方式 是 通过 虚拟 机 提供 粒度 更 大 的 指令 集合 ， 从 而 缩小 源 程序 和 编译 后 程序 在 表达 形式 上 的 
差异 。 虚 拟 机 所 支持 的 扩展 指令 ， 由 于 粒度 更 大 ， 可 以 与 源 程序 中 的 操作 建立 直接 的 对 应 关 
系 。 例 如 ,文件 系统 提供 的 创建 、 删 除 、 打 开 、 关 闭 、 读 、 写 6 种 操作 实际 上 就 是 作用 于 文 
件 的 一 组 虚拟 指令 。 如 果 可 以 将 文件 输入 输出 相关 的 源 程序 直接 翻译 为 这 6 种 虚拟 指令 (而 
不 是 翻译 到 更 底层 的 机 器 指令 上 )， 那 么 ,编译 器 的 设计 可 以 得 到 极 大 的 简化 。 

编译 器 是 进行 程序 翻译 的 一 种 模式 。 另 一 种 模式 则 是 解释 器 : 它 解 析 一 条 语句 ， 并 
在 解析 过 程 中 动态 地 对 语法 树 上 的 操作 进行 调用 。 许 多 语言 (例如 ， 逻 辑 语言 、 列 表 处 理 
语言 、 命 令 语言 ) 在 解释 执行 模式 下 会 具有 更 高 的 运行 效率 。 一 个 重要 的 原因 是 很 多 操作 
涉及 对 内 存 的 动态 使 用 ， 而 一 个 动态 的 运行 时 系统 能 够 快速 地 适应 这 种 动态 性 〈 比 如 通过 
垃圾 内 存 回收 机 制 实现 对 内 存 的 动态 管理 )。 

通过 使 用 这 些 技术 ， 我 们 可 以 更 加 充分 地 确认 机 器 代码 确实 完全 精确 地 表达 了 源 程序 所 
要 表达 的 行为 。 如 果 这 一 点 无 法 得 到 有 效 的 保证 ， 程 序 设计 语言 的 使 用 效果 就 会 大 打折 扣 。 
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第 6 章 | 


Great Principles of Computing 


计 算 





信息 高 速 公路 ， 就 是 不 带 重量 的 比特 以 光速 在 全 球 移动 。 
一 一 Nicolas Negroponte ( 1996 ) 
这 向 话 是 错 的 。 
一 一 Alfred Tarski 


计算 就 是 对 一 组 比特 不 断 进 行 改变 的 过 程 ， 每 一 次 改变 只 花 一 点 点 时 间 和 能 量 ， 仅 
仅 影 响 到 很 少 的 几 个 比特 。 

计算 的 工作 量 大 小 是 通过 完成 这 项 计算 任务 所 需 的 时 间 (或 能 量 、 空 间 ) 来 衡量 的 。 
那么 ， 一 台 计 算 机 去 完成 某 项 任务 到 底 需 要 多 少时 间 (能 量 、 空 间 ) 呢 ? 我 们 是 否 能 够 预 
测 某 一 项 任务 或 者 某 一 类 相关 任务 的 计算 量 呢 ? 

自 20 世纪 30 年 代 以 来 ， 这 些 关 于 性 能 方面 的 问题 就 给 计算 任务 的 设计 者 们 带 来 了 
持续 的 挑战 。 他 们 提出 了 下 面 这 四 个 问题 : 

1 ) 这 个 任务 存在 一 个 解决 算法 吗 ? 

2) 这 个 算法 需要 运行 多 长 时 间 ? 

3 ) 是 否 存在 更 快 的 算法 ? 

4) 若 有 ， 更 快 的 算法 是 什么 ? 

这 些 问 题 激 励 着 我 们 不 断 去 探索 、 去 理解 计算 的 复杂 度 ， 也 就 是 计算 一 个 可 计算 函 
数 的 值 并 得 出 正确 结果 所 需要 的 步 数 。 表 6.1 总 结 了 我 们 发 现 的 四 类 主要 的 函数 ， 这 些 类 
别 将 指引 本 章 后 续 的 讨论 。 

这 个 表 中 提 到 了 判定 问题 ， 也 就 是 判定 一 件 事 情 是 真 (1 ) 还 是 假 (0 )。 计 算 机 科学 
家 用 判定 问题 去 评测 各 种 计算 问题 的 困难 程度 。 这 人 么 一 种 明显 的 限定 却 不 会 给 我 们 的 讨 
论 带 来 任何 损失 。 对 于 任意 一 个 函数 F(x)， 都 存在 一 个 对 应 的 判定 函数 DFO, y), HAE 
F(x) = 成 立时 它 返回 1， 不 成 立时 返回 0。 这 个 判定 函数 的 计算 复杂 度 并 不 高 于 一 般 函 数 ， 
有 时 候 判 定 函 数 要 比 一 般 函 数 更 简单 。 但 是 ， 如 果 判 定 函数 计算 起 来 很 困难 ， 那 原始 函数 
也 一 定 不 会 比 这 更 简单 。 

“容易 ”和 “困难 ”这 个 术语 是 相对 的 。“ 容 易 ” 意 味 着 我 们 在 计算 机 上 花费 一 段 合 
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理 的 时 间 就 能 对 大 量 样本 做 出 判定 ;“ 困 难 ” 意 味 着 我 们 在 一 段 合理 的 时 间 内 只 能 对 很 有 
限 的 样本 做 出 判定 。 非 常 困难 ， 或 者 说 难 解 ， 则 意味 着 即便 是 使 用 世界 上 最 快 的 计算 机 ， 
也 要 运行 很 多 个 世纪 ， 才 能 对 我 们 所 关心 的 样本 做 出 判定 。 而 在 容易 与 非常 困难 之 间 ， 是 
超过 3000 多 个 来 自 各 种 领域 的 实际 问题 (技术 上 被 称 为 NP 完全 问题 )。 这 些 问 题 本 身 是 
难 解 的 ， 但 验证 答案 却 比 较 简单 。 如 果 有 人 能 找到 其 中 某 一 个 问题 的 快速 算法 ， 那 么 所 有 
其 他 问题 也 就 将 迎刃而解 了 。 至 于 这 样 的 一 个 快速 算法 是 否 存在 ， 被 认为 是 数学 和 计算 领 
域 最 前 沿 的 开放 性 问题 之 一 。 


表 6.1 按 计算 难度 区 分 的 几 类 计算 问题 


多 项 式 的 ( Polynomial, P), 
存在 已 知 快速 算法 的 判定 问题 
不 存在 已 知 快速 算法 ,但 可 以 快速 

进行 验证 的 判定 问题 ; 通常 涉及 在 一 | eterministic Polynomial, NP), 
个 大 数据 集 上 进行 搜索 的 过 程 NP 完全 的 
不 存在 已 知 的 快速 算法 或 快速 验证 


不 可 计算 或 不 可 判定 的 






















O(lonn) 和 O(n"), k 
为 常数 


O(2"), O(n!) 或 更 差 










0O(2”)， 其 中 fn) 是 
指数 级 或 更 差 


在 上 述 表格 中 ， 困 难 程度 的 级 别 是 通过 解决 问题 所 需要 的 步 数 随 着 问题 的 输入 规 
模 (n) 而 增长 的 速度 来 描述 的 。0O(n) 代表 计算 时 间 随 着 输入 规模 的 增加 而 呈现 线性 增长 ， 
O(2") 意味 着 计算 时 间 随 着 输入 规模 的 增加 呈现 指数 式 增长 。 这 些 困难 度 级 别 的 具体 含义 
在 后 续 会 详细 阐述 。 


图 灵机 
图 灵机 (1937) 一 直 以 来 都 是 公认 的 计算 参考 模型 ， 它 战胜 了 很 多 与 之 竞争 的 其 
他 模型 ， 例 如 Post 的 重 写 系统 、Church 的 入 演算 以 及 Gödel 的 递归 函数 。 图 灵机 之 
所 以 如 此 成 功 ， 要 归 因 于 它 与 真正 的 自动 计算 机 最 相似 ， 并 且 可 以 计算 任何 其 他 模型 
所 能 计算 的 任何 函数 。 
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图 灵机 包含 一 个 有 限 状 态 的 控制 单元 ， 可 以 在 一 个 无 限 长 的 二 维 纸 带 上 移动 。 纸 
带 上 的 每 个 小 方 格 含有 一 个 符号 ， 可 以 是 0、1 或 者 #， 其 中 # 代 表 空 格 。 控 制 单元 被 
ZLAB (q, alb, LR, q') 的 多 元 组 集合 ， 其 中 gq 和 g' 是 控制 状态 ,a 和 4b 是 纸 
带 上 的 符号 ，LR 是 一 个 方向 指示 。 例 如 多 元 组 (17，1/0, R, 22) 表示 “如 果 处 于 
状态 17 并 且 当 前 方 格 里 的 符号 是 1， 那么 向 这 个 方 格 里 写 入 0， 向 右 移 动 一 个 方 格 并 
进入 状态 22”。 还 有 一 个 状态 是 停机 状态 ， 如 果 机 器 进入 这 个 状态 ， 它 就 会 停止 ， 而 
此 时 纸 带 上 的 内 容 就 是 输出 。 

图 灵 还 描述 了 一 个 可 以 通过 多 元 组 来 模拟 任何 其 他 机 器 的 通用 机 器 。 通 用 图 灵机 
引发 了 Church-Turing 命题 (猜测) : 任何 可 计算 的 模型 都 能 用 图 灵机 来 表示 。 到 目前 
为 止 还 没有 发 现任 何 新 的 计算 模型 打破 这 个 狂想。 当然， 有 一 些 函 数 是 图 灵机 无 法 计 
算 的 ， 例 如 停机 判定 问题 。 而 其 他 的 一 些 函 数 ， 例 如 图 像 标 记 (图 3.7 )， 可 通过 人 机 
协作 来 计算 ， 但 目前 为 止 还 没 发 现 图 灵 意 义 上 的 可 计算 方法 。 

图 灵机 是 一 种 很 方便 的 计算 复杂 度 参考 模型 。 一 个 算法 的 复杂 度 ， 可 以 通过 在 给 定 
输入 条 件 下 图 灵机 运行 完 该 算法 所 需要 的 移动 次 数 来 衡量 。 本 质 上 按 串 行 方式 执行 的 图 灵 
机 ， 非 常 适合 计算 移动 次 数 来 判定 一 台 机 器 从 开始 状态 运行 到 停机 状态 所 需 时 间 的 上 界 。 

验证 器 (verifier) 这 个 概念 对 应 于 一 种 “ 非 确定 性 的 ”图 灵机 。 在 这 样 的 机 器 里 ， 
对 于 一 个 特定 的 机 器 状态 和 当前 纸 带 符号 ， 可 能 有 不 止 一 个 对 应 的 多 元 组 。 例 如， 机 
STERA (17, 1/1, L, 24) 又 有 上 面 提 到 的 多 元 组 (17，1/0，R，22 )。 那 机 器 
应 当 使 用 哪个 多 元 组 ? 机 器 需要 做 出 选择 ， 因 为 仅 赁 当前 状态 和 纸 带 符号 无 法 唯一 确 
定 接 下 来 的 状态 。 非 确定 性 机 器 会 计算 这 一 系列 的 可 选项 ， 看 看 是 否 其 中 有 某 一 系列 
选项 能 导致 停机 并 得 到 特定 的 输出 。 通 过 把 程序 的 每 个 可 能 选择 构造 成 一 棵 树 ， 非 确 
定性 自动 机 可 以 转化 为 确定 性 自动 机 ， 但 这 棵 树 可 能 会 很 快 变 得 庞大 无 比 。 

验证 器 仅仅 是 确认 一 个 非 确定 性 自动 机 中 有 一 条 计算 路 径 可 以 得 到 一 个 特定 的 输 
出 。 这 要 比 枚 举 所 有 可 能 性 并 依次 检查 要 容易 得 多 。 

现代 计算 复杂 性 理论 不 再 直接 应 用 图 灵机 ， 但 仍然 依赖 于 程序 的 精确 定义 ， 以 及 
程序 计算 一 个 函数 所 需要 的 步 数 。 





简单 问题 


我 们 先 来 看 一 些 简单 计算 的 实例 以 及 运行 时 间 的 度量 标准 。 
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实例 1 简单 的 线性 搜索 

找到 本 书 中 首次 出 现 “图 灵 ” 这 个 词 的 页 面 号 。 一 个 解决 之 道 是 用 一 个 字符 串 来 表示 
这 本 书 (字符 串 中 舱 入 了 表示 页 边界 的 标记 )， 然 后 开始 搜索 “图 灵 ” 这 个 词 ， 沿 着 这 本 
书 的 字符 串 一 个 字符 一 个 字符 地 滑动 ， 每 次 滑动 都 检查 当前 字符 是 否 能 与 “图 灵 ” 匹 配 。 
如 果 我 们 找到 了 一 个 匹配 的 字符 ， 可 以 立刻 停止 算法 并 输出 当前 位 置 所 在 页 面 的 页 号 。 

检查 要 搜索 的 字符 串 与 书 中 的 每 一 个 子 串 是 否 匹配 ， 它 所 需 的 时 间 与 要 搜索 的 字符 串 
的 长 度 呈 固定 比例 关系 。 不 妨 假设 待 搜索 的 字符 串 长 为 9， 我 们 需要 对 书 中 每 一 个 字符 对 
应 的 子 串 进 行 匹配 检查 。 如 果 这 本 书 共 有 “个 字符 ， 那 么 总 共 的 搜索 时 间 不 会 超过 47z + 
B, HHA, BRERA n= sb， 我 们 称 这 种 时 间 为 “n 级 ”， 因 为 n BRAN, Hin 
比例 关系 ， 简 记 为 0(n)， 这 种 搜索 方法 称 为 线性 搜索 。 


实例 2” 二 分 搜索 

简单 的 线性 搜索 可 能 不 会 是 最 快 的。 假设 这 本 书 有 一 张 索引 表 ， 表 上 记载 了 每 个 单 
词 首 次 出 现 的 页 码 。 基 于 索引 表 ， 我 们 可 以 进行 二 分 搜索 : 重复 询问 我 们 要 搜索 的 字符 串 
是 位 于 当前 查询 的 索引 表 的 上 半 部 分 还 是 下 半 部 分 。 在 每 一 个 阶段 ， 我 们 将 搜索 域 缩小 到 
上 个 阶段 搜索 域 的 一 半 。 这 意味 着 我 们 需要 logon 次 划分 就 能 把 搜索 域 的 规模 降 到 1， 最 
终 检查 该 单词 是 否 是 我 们 要 搜索 的 字符 串 〈 见 图 6.1 )。 
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图 6.1 二 分 原理 就 是 将 一 个 大 规模 的 集合 ,- 通 过 一 系列 的 划分 〈 每 次 一 分 为 二 )， 分 解 成 很 多 只 具有 
单个 元 素 的 小 集合 。 例 如 这 里 的 集合 | 1，2，3，4 上 先 被 对 半 划 分 ， 每 一 半 再 进行 划分 。 每 一 
层 标 有 0、1、2， 其 中 0 在 树 的 最 底层 。 如 果 n= 2， 则 树 的 深度 为 k= logzn， 这 个 对 数 可 看 作 
是 以 某 个 基底 (这 里 是 2 ) 进行 划分 直至 单个 元 素 所 需要 的 划分 次 数 。 很 多 计算 问题 都 可 以 用 
这 种 “分 治 ” 策 略 进行 求解 ， 因 此 这 种 对 数 符号 经 常 出 现在 计算 任务 的 时 间 复 杂 度 级 别 记号 中 
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因此 ， 在 索引 表 中 找到 字符 串 “ 图 灵 ” 所 需 的 时 间 正 比 于 4logx +B, Hp A 和 B 为 
常数 。 我 们 称 这 种 时 间 为 “logn” 级 ， 因 为 n 较 大 时 ， 时 间 与 logn 成 比例 关系 ， 简 记 为 
O(logn)。 二 分 搜索 要 比 线性 搜索 快 很 多 ,例如 一 本 约 有 2”( 大 约 一 百 万 ) 个 字符 的 书 ， 线 性 搜 
索 需 要 2” 级 别 的 时 间 ， 相 较 而 言 二 分 搜索 只 需要 20 级 别 的 时 间 ， 整 整 快 了 50 000 倍 。 对 于 
大 文件 来 说 这 个 优点 更 为 明显 。 我 们 下 一 步 要 关注 的 就 是 建立 这 样 一 张 索引 表 需 要 多 少 工作 量 。 


实例 3 排序 


建立 索引 表 就 是 一 种 排序 的 实例 。 排 序 是 指 把 一 系列 的 数据 项 按 某 个 顺序 排列 起 来 。 
例如 ， 一 系列 单词 可 以 按 字母 顺序 排序 ， 一 系列 数字 可 以 按 递增 或 递减 排序 。 有 些 排序 可 
能 会 有 重复 的 元 素 ， 基 于 索引 的 书 则 对 排序 做 了 点 小 扩展 ， 还 提供 了 指针 来 指出 每 个 单词 
在 书 中 的 原始 出 现 位 置 。 

排序 的 实现 方法 之 一 是 逐次 最 大 值 法 (successive maxima)。 这 种 方法 扫描 包含 nn 项 
的 整个 序列 ， 找 到 其 中 最 大 的 元 素 ， 并 与 最 后 一 个 元 素 进行 位 置 交 换 ， 然 后 对 剩 下 的 n 
1 项 重复 这 个 过 程 ， 再 对 剩 下 的 n -2 项 进行 重复 ， 依 此 类 推 。 这 种 做 法 一 共 需 要 比较 n(n 
+ 1)/2 次 ， 复 杂 度 为 到 级 ， 或 记 为 O02) ( 见 图 6.2). 


扫描 0 ~ 7， 最 大 元 素 在 
platelets] «| | | is zasa 


| 扫描 0 ~ 6， 最 大 元 素 在 
| 位 置 2， 交 换 2 和 6 









扫描 0 ~ 5， 最 大 元 素 在 
位 置 4， 交 换 4 和 5 






| 扫描 0 ~4， 最 大 元 素 在 
位 置 4， 交 换 4 和 4 











图 6.2 通过 逐次 最 大 值 法 ， 可 将 一 个 无 序 的 序列 变 成 一 个 有 序 的 序列 。 这 里 是 一 个 在 0 ~ 7 位 置 
共有 8 项 元 素 的 待 排序 数组 。 第 一 遍 (第 一 行 )， 通 过 检查 每 个 位 置 找到 最 大 的 元 素 一 一 位 
HSB) “H”, 将 位 置 5 和 位 置 7 的 元 素 进行 交换 ， 从 而 让 最 大 值 出 现在 位 置 7。 第 二 遍 (第 
二 行 ) 对 0 ~ 6 位 置 的 这 些 项 重复 上 述 过 程 ， 然 后 第 三 遍 对 0 ~ 5 位 置 的 项 重复 ， 以 此 类 
推 。 当 执行 完 只 有 0、1 两 个 位 置 的 这 一 遍 后 算法 就 终止 ， 比 较 的 总 次 数 为 n(n + 1)/2 次 。 
对 于 有 个 正 数 的 情况 比较 发 生 的 总 次 数 为 n(n + 1)/2 次 ， 本 例 中 是 36 次 ， 这 种 方法 的 复 
RREN Oln’) 
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还 有 更 快 的 排序 算法 吗 ?y 有 ， 不 过 对 于 初学 者 来 说 可 能 不 是 那么 显而易见 ( 见 
图 6.3 )。 更 快 的 算法 要 应 用 二 分 原理 ， 把 原始 序列 划分 成 两 部 分 ， 而 每 个 部 分 继续 被 不 
断 划分 后 进行 排序 ， 这 需要 重复 logn 次 划分 ( 见 图 6.3 )。 而 在 每 一 层 ， 全 部 的 n 项 都 会 
被 检查 ， 总 共 时 间 为 O(nlogn)。 





图 6.3 快速 排序 算法 把 待 排序 列 对 半 划 分 ， 使 得 左边 的 每 个 元 素 都 小 于 右边 的 任 一 元 素 。 为 了 达 
到 这 个 目的 ， 第 一 遍 ， 我 们 随机 选择 一 个 元 素 (D)， 然 后 把 小 于 等 于 D 的 元 素 都 移动 到 左 
边 ， 比 D 大 的 都 移动 到 右边 ( 见 第 二 行 )。 现 在 D 的 左边 有 一 个 长 度 为 3 的 待 排序 列 ， 右 边 
是 一 个 长 度 为 4 的 待 排 序列 。 对 左边 的 待 排 序列 采用 同样 的 划分 做 法 ，B 是 我 们 随机 选 到 
的 元 素 。 对 于 右边 也 是 同样 ，E 是 随机 选 到 的 元 素 ， 如 此 重复 下 去 ， 直 到 只 有 一 个 元 素 。 在 
实际 操作 中 ， 上 级 序列 有 指向 下 级 子 序列 的 指针 ， 用 于 把 一 个 元 素 移动 到 左边 或 右边 。 因 
此 当 只 有 一 个 元 素 的 子 序列 开始 合并 时 ， 元 素 已 经 处 于 正确 的 位 置 了 。 如 果 每 次 随机 选择 
的 元 素 都 能 把 原 序列 分 成 两 个 ， 那 么 快速 排序 算法 一 共 需 要 logon 遍 ， 每 遍 将 检查 所 有 元 
素 ， 因 此 总 时 间 为 O(nlog2n) 

我 们 能 做 得 更 好 吗 ? 不 能 。 想 象 一 下 有 一 个 完美 的 算法 ， 它 至 少 要 包含 一 个 过 程 下 
来 告诉 我 们 ,原始 序列 的 每 一 项 在 排 好 序 的 序列 中 的 位 置 。F(i) 表示 第 i 项 在 排 好 序 的 序 
列 中 的 位 置 , F 需要 产生 比特 流 来 代表 在 排 好 序 的 序列 中 的 位 置 。 如 果 序 列 一 共有 nn 项 ， 
则 每 个 位 置 字符 串 的 长 度 至 少 为 ogn， 因 此 下 需要 时 间 O(logn) 来 产生 该 字符 串 。 对 n 项 
中 的 每 一 项 都 需要 进行 这 个 过 程 ， 因 此 整个 序列 就 需要 O(nlogn) 的 时 间 。 

从 这 些 例子 中 我 们 能 够 看 出 什么 ? 

e 首先 ， 有 些 问 题 可 以 比 其 他 问题 更 快 地 解决 。 二 分 搜索 比 线性 搜索 或 排序 要 

更 快 。 
e 第 二 ， 有 时 如 何 找到 更 快 的 算法 并 不 是 那么 显而易见 的 ， 甚 至 是 否 存 在 更 快 的 算法 
都 不 确定 。 发 现 逐 次 最 大 值 排序 法 很 容易 ， 而 发 现 快速 排序 算法 ( QuickSort) 却 并 
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不 容易 。 甚 至 O(nlogn) 事实 上 是 最 快 的 时 间 级 同样 也 不 是 一 件 容易 发 现 的 事 。 

。 第 三 ,设计 者 一 般 会 进行 权衡 。 例 如 当 搜 索 发 生得 比较 频繁 时 ,设计 者 往往 倾向 
于 愿意 承担 构建 索引 表 的 成 本 ， 从 而 使 得 二 分 搜索 得 以 实施 。 

上 述 例子 包含 了 O(logn), O(n) 和 O(n”)， 下 面 这 个 例子 是 一 个 Om) 级 的 算法 。 


实例 4 FERRE 


— ASME RT AE ZEH n FT. 2 列 ， 总 共 天 个 元 素 组 成 的 方形 数组 。 在 线性 代数 中 ， 
我 们 通常 用 一 个 未 知 向 量 和 一 个 系数 抢 阵 的 乘积 来 描述 一 个 方程 组 ， 并 用 矩阵 乘积 的 形式 
来 表达 方程 组 的 解 。 和 矩阵 乘法 是 非常 重要 的 操作 ， 在 很 多 应 用 中 也 经 常 被 使 用 。 最 典型 的 
一 种 应 用 是 图 形 学 ， 包 括 平 板 电脑 和 智能 手机 上 的 物体 旋转 和 投影 都 是 通过 和 矩阵 相 乘 来 实 
现 。 软 件 执行 矩阵 乘法 是 如 此 之 快 ， 以 至 于 我 们 完全 无 所 察觉 我们 只 能 “看 ”到 屏幕 上 
的 物体 旋转 。 尽 管 使 用 者 一 般 看 不 到 具体 的 矩阵 乘法 操作 ， 因 为 它们 通常 被 封装 在 软件 库 
里 ， 但 矩阵 相 乘 无 处 不 在 。 按 照 线 性 代数 书 上 的 标准 方法 去 计算 两 个 2 上 xz 和 矩阵 的 乘法 ， 
其 常见 时 间 复 杂 度 为 O02) ( 见 图 6.4 )。 


> (ij) 


图 6.4 方 阵 相 乘 算法 把 两 个 大 小 为 nXn 的 方 阵 相 乘 ， 得 到 一 个 同样 大 小 的 矩阵 。 计 算 结果 中 ， 位 
置 (i, j) 上 的 值 的 标准 计算 方式 是 “将 第 一 个 矩阵 的 第 i 行 与 第 二 个 矩阵 的 第 j 列 进行 向 量 
相 乘 ” 。 向 量 相 乘 定 义 为 对 应 位 置 数 值 乘积 的 加 和 。 在 本 例 中 ，n = 3， 图 中 所 示 的 行 与 列 相 
FEA (1, 2, 3) + (4, 5, 6) = (1. 4) + (2° 5) + (3 > 6) =4+4 10+ 18 =32, KRW “AHR”. Ẹ 
次 点 乘 操 作 需 要 执行 n 次 乘法 和 n -1 次 加 法 操作 ， 共 计 2n - 1 次 操作 ， 而 这 样 的 点 乘 操 作 
需要 重复 进行 居 次 ， 因 为 需要 对 结果 矩阵 中 的 每 个 元 素 都 进行 一 次 点 乘 计算 ， 因 此 总 计算 
量 为 nx(2n - 1) =2n?- nr’, ERE O(n’) 
我 们 刚刚 看 到 的 这 四 个 例子 是 已 经 知道 快速 算法 的 经 典 问 题 实 例 。 它 们 的 计算 量 都 
是 O(n') 级 ,上 为 常数 。O(logn) 也 包含 在 其 中 ， 因 为 它 O(n) 比 级 还 要 快 。 
计算 机 科学 家 把 所 有 能 够 在 ON) (大 为 常数 ) 级 时 间 内 解决 的 问题 统称 为 “多 项 式 ” 
类 问题 ， 因 为 其 计算 量 可 以 用 最 高 阶 为 n* 的 多 项 式 来 测量 。 计 算 机 科学 家 们 约定 多 项 式 
类 问题 属于 “容易 ”一 类 ， 因 为 它们 在 大 多 数 的 计算 机 上 都 可 以 很 好 地 运行 。 然 而 还 有 很 
多 问题 的 求解 算法 运行 起 来 是 很 困难 的 ， 接 下 来 我 们 将 讨论 这 部 分 的 问题 。 
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指数 级 困难 问题 

任何 需要 枚 举 的 问题 都 可 能 会 是 很 困难 的 。 想 象 一 下 ， 假 如 你 需要 检测 状态 域 中 的 
每 一 种 状态 看 其 是 否 满足 一 定 特性 ， 你 可 以 把 所 有 的 状态 当 作 一 个 长 长 的 序列 并 依次 检 
查 ， 所 需 的 时 间 将 会 与 状态 域 的 大 小 成 正比 。 当 状态 域 很 大 时 ， 算 法 将 需要 运行 很 长 一 自 
时 间 。 


实例 5 所 有 的 十 位 数字 


打印 所 有 的 十 位 数字 看 起 来 似乎 很 容易 。 因 为 一 共有 10" 个 数 ， 做 这 件 事 的 算法 将 
会 是 


Fori=0，…，10"- 1, print i 


算法 的 时 间 复 杂 度 为 O0). PIE RASA RAT AYE? 对 于 一 个 现代 高 速 芯 片 ， 时 钟 
频率 为 1GHz (每 次 执行 10" 次 操作 )， 大 概 需要 10 秒 钟 。 我 们 又 需要 多 少 张 纸 呢 ? 假使 
我 们 用 很 小 的 字体 打印 ， 每 页 分 成 五 栏 ， 每 栏 100 个 数 ， 一 页 也 就 是 500 个 ， 若 是 双 面 
打印 那么 一 张 纸 可 以 打印 1000 个 数字 ， 因 此 我 们 需要 10"/10 = 10’ 张 纸 。 一 个 含有 20 
个 装 纸 盒 的 箱子 一 般 能 容 10 000 张 纸 ， 我 们 需要 107/10°= 10° 个 纸箱 。 倘 若 每 个 箱子 大 
小 为 3 立方 英尺 ?>， 那 么 我 们 需要 一 个 10 x 30 平方 英尺 5 占 地 面积 ，10 英尺 高 的 储藏 室 ， 
一 张 桌 子 上 都 放 不 下 这 些 打印 出 来 的 东西 。 

即使 我 们 真有 这 么 一 个 储藏 室 ， 更 糟 的 问题 还 在 后 面 。 高 速 打印 机 一 般 每 秒 可 打印 
一 张 纸 ， 整 个 工作 将 会 持续 107 秒 ， 大 约 是 4 个 月 之 久 。 

问题 的 难度 并 不 在 于 算法 本 身 ， 而 在 于 枚 举 所 有 状态 所 需 的 时 间 。 从 第 3 章 中 10 的 
需 指 数 表 中 ， 我 们 可 以 观察 到 即使 一 个 很 小 的 指数 都 会 产生 一 个 非常 巨大 的 数字 。 任 何 需 
要 指数 级 运行 时 间 的 算法 都 会 是 很 困难 的 。 


实例 6 ”背包 问题 


背包 问题 是 调度 研究 领域 的 一 个 经 典 问题 ?。 我 们 有 一 个 给 定 大 小 的 背包 ,以 及 nn 个 
物品 。 这 些 物品 的 大 小 分 别 是 {51, …, sw} ， 每 个 物品 对 应 的 价值 分 别 是 {v1, …, vn} 我 们 
希望 找到 能 够 放 进 背包 的 具有 最 大 价值 的 一 个 物品 子 集 。 

背包 问题 是 很 多 实际 问题 的 抽象 模型 ， 例 如 一 个 旅行 者 该 把 哪些 物品 放 进 有 限 大 小 


© 1 立方 英尺 = 0.0283 立方 米 。 
© 1 平方 英尺 = 0.0929 平方 米 。 
© 1 英尺 =0.3048 米 。 
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的 背包 里 ， 再 例如 一 个 货运 公司 要 决定 如 何 让 货车 载重 更 多 ， 或 者 一 个 装配 线 管 理 员 如 何 
安排 任务 ， 使 得 既 可 以 按时 完工 又 能 获得 最 大 利润 。 

当 n 很 大 时 ,背包 问题 会 变 得 很 困难 ， 因 为 有 非常 多 种 可 能 的 子 集 一 一 事实 上 会 有 
2" 个 子 集 ( 见 图 6.5 )。 如 果 将 它们 一 一 枚 举 并 计算 大 小 ， 然 后 选 出 最 优 者 ， 这 会 花费 很 
多 时 间 ， 因 为 这 样 的 搜索 过 程 需要 O2) 的 时 间 。 例 如 有 10 个 物品 就 会 对 应 有 大 约 1000 
个 子 集 , 20 个 物品 会 有 大 约 100 万 个 子 集 , 30 个 物品 将 会 有 10 亿 个 子 集 。 对 于 这 种 问题 ， 
还 没有 人 发 现 更 好 的 算法 ， 不 过 目前 也 没有 人 证 明 不 存在 更 快 的 算法 。 

指数 式 的 搜索 有 可 能 通过 启发 式 方法 来 避免 。 对 于 背包 问题 ， 一 个 常用 的 启发 式 方 
法 是 计算 每 个 物品 的 “价值 / 大小” 比率， 然后 按照 价值 / 大 小 比率 逐渐 降低 的 次 序 把 物 
品 依次 放 和 人 背包 ， 直 到 无 法 放 进 更 多 物品 为 止 。 排 序 的 存在 决定 了 搜索 是 线性 的 ， 且 总 
的 运行 时 间 为 O(nlogn)。 不 幸 的 是 ， 这 种 启发 式 方法 不 能 保证 找到 的 解 是 最 优 的 解 ( 见 


图 6.5 )。 


v/s 比值 nol 
物品 
rae ene ease ee 
集 。 例 如 本 例 中 ， 我 们 有 三 个 物品 大 小 分 别 是 (2,3, 7} ， 对 应 的 价值 是 {4, 5, 6}, Wear) 
为 9。 右边 的 表格 枚 举 了 这 三 个 物品 组 成 的 8 个 子 集 的 情况 ，1 表示 在 子 集中 ，0 表示 不 在 。 
右边 两 列 分 别 表示 该 子 集中 的 物品 大 小 总 和 以 及 子 集 的 有 效 价 值 ( 当 子 集 大 小 不 超过 9 时 )。 
可 以 看 出 包含 物品 11,3} 的 子 集 是 最 终 选 择 的 方案 。 一 种 启发 式 的 做 法 是 用 价值 /大 小 的 
比率 去 标记 每 个 物品 ， 然 后 按照 比率 降序 把 物品 依次 放 人 背包 ， 直 到 再 也 放 不 进去 更 多 物 
品 为 止 。 这 种 策略 达到 的 解 是 {1, 2} ， 接 近 于 真正 的 最 优 解 ， 但 不 是 最 优 解 


选择 总 大 小 总 权 值 





实例 7 访问 所 有 城市 


每 个 货运 公司 都 关注 这 样 一 个 问题 : 在 个 城市 之 间 运 送 货 物 的 最 短路 线 是 什么 ? 
这 是 一 个 经 典 的 旅行 商 问题 。 我 们 可 以 通过 搜索 来 寻找 最 短路 线 : 首先 ， 枚 举 这 些 城 
市 之 间 所 有 可 能 的 路 线 ， 然 后 计算 每 条 路 线 的 长 度 ， 其 中 最 短 的 那 条 路 线 就 是 问题 
的 解 。 
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上 述 方法 需要 花费 多 长 时 间 ? 可 以 通过 先 选 择 第 一 个 城市 A n EE), ERL 
个 城市 (有 n 1 个 选择 )， 直 到 全 部 选择 完 ， 来 构造 每 一 条 路 线 , 一 共有 nl! = n(n - 1)(n - 
2) … 2+ 1 条 路 线 ， 这 种 方法 具有 On) 级 的 复杂 度 。 当 n 比较 大 时 ，nl! 的 Sterling 近似 是 
n'e” V2rn， 即 使 对 于 一 个 较 小 的 n 而 言 这 都 是 一 个 巨大 的 天 文 数字 ， 例 如 100 ! 就 高 达 
10'S 级 别 。 如 果 我 们 有 一 个 时 钟 频率 为 10GHz 的 处 理 器 ， 每 个 时 钟 内 可 以 处 理 一 条 路 线 ， 
那么 每 秒 可 以 处 理 100 条 路 线 ， 一 年 可 以 处 理 10" 条 路 线 (一 年 包含 3.14 x 10 秒 ), 一 个 
世纪 可 以 处 理 10° 条 路 线 ， 整 个 的 计算 过 程 将 需要 10 个 世纪 。 相 比较 而 言 ， 一 个 星球 
的 寿命 一 般 只 有 10 个 世纪 。 所 以 这 个 问题 很 难 解 ! 

对 于 背包 问题 ， 启 发 式 方法 能 非常 有 效 地 工作 。2004 年 ， 瑞 典 的 一 个 工作 小 组 通过 
启发 式 来 寻找 瑞典 的 24 978 个 城市 之 间 的 最 优 路 线 ， 他 们 的 计算 过 程 花 费 了 分 布 于 96 个 
处 理 器 上 的 总 共 长 达 约 一 个 世纪 的 CPU 时 间 。” 


实例 8 合 数 分 解 


合 数 是 两 个 或 多 个 质数 的 乘积 。 在 密码 学 领域 ,很 多 重要 的 算法 都 依赖 于 由 两 个 质 
数 生成 的 合 数 。 例 如 RSA 加 密 系统 ， 使 用 两 个 大 质数 作为 私有 密 钥 ， 而 对 应 的 合 数 作为 
生成 公共 密 钥 的 基础 (Rivest et al. 1978 ) 。 这 种 公 钥 是 安全 的 ， 因 为 目前 还 没有 快速 算法 
能 把 一 个 合 数 分 解 成 两 个 质数 。 所 有 已 知 的 整数 分 解 算法 都 需要 在 2” 种 可 能 的 分 解 上 进 
行 搜索 ， 这 具有 指数 级 复杂 度 。RSA 是 目前 所 知 的 唯一 能 够 确认 是 安全 的 公 钥 加 密 系统 。 
然而 ， 如 果 存 在 快速 的 合 数 分 解 算法 ， 就 能 够 从 公 钥 中 快速 地 提取 出 两 个 质数 ，RSA 加 
密 系 统 也 就 失效 了 。 

以 当前 的 硬件 水 平和 分 解 算法 ，2056 位 的 公 钥 是 安全 的 ， 但 到 2020 年 它 可 能 就 会 被 
破解 了 ，4096 位 公 钥 则 被 认为 是 永远 不 会 被 破解 的 。1994 年 ，Peter Shor 发 明了 一 种 能 
在 多 项 式 时 间 内 进行 合 数 分 解 的 量子 算法 。 如 果 能 够 建造 出 量子 计算 机 ， 那 么 RSA 系统 
可 能 就 没有 用 武之 地 了 。 

这 些 例子 表明 只 有 当 我 们 找到 一 个 无 需 枚 举 和 搜索 整个 可 能 空间 的 算法 ， 我 们 才能 
使 分 解 合 数 变 得 容易 ， 才 能 完成 这 个 原本 运行 到 世界 毁灭 都 无 法 完成 的 事情 。 

根本 性 的 原因 在 于 搜索 空间 的 指数 级 (或 更 糟糕 的 ) 增长 。 在 第 2 章 中 我 们 给 出 了 
1000 的 指数 表 以 及 它们 的 前 级 名 ， 包 括 giga (G), tera(T), peta(P), exa(E) 及 zetta(Z)。 
但 我 们 的 命名 无 法 跟 上 数据 量 级 的 增长 ， 如 今 每 年 网 络 上 的 数据 量 为 1Z， 而 不 久之 后 数 
据 总 量 就 会 超过 1Y(yatto)， 这 是 我 们 仅 剩 的 一 个 前 级 。 


88 FOF 


FA ERAT AT LA aH, O2) 或 On) 级 的 问题 和 任何 多 项 式 问 题 相 比 计算 起 来 都 更 困 
难 ， 因 此 我 们 称 之 为 指数 级 困难 问题 。 

从 实际 来 看 ， 即 使 对 于 一 个 很 小 的 输入 ， 这 些 问 题 也 都 是 无 法 求解 的 。 唯 一 的 办 法 
就 是 利用 局 发 式 方法 ， 搜 索 整 个 可 能 空间 中 的 一 个 很 小 的 子 集 来 近似 求解 。 我 们 都 知道 启 
发 式 方法 可 以 很 快 地 给 出 结果 ， 但 无 法 确定 这 个 结果 离 最 优 解 偏 离 有 多 远 。 瑞 典 的 那个 小 
组 如 此 幸运 ， 他 们 的 启发 式 方法 找到 了 一 条 能 被 证 明 是 最 优 的 旅行 商 路 线 。 

不 幸 的 是 ， 唯 一 已 知 能 够 求解 指数 级 困难 问题 的 算法 就 是 枚 举 法 。 这 样 的 问题 如 此 
常见 而 普遍 ， 研 究 人 员 研究 了 许多 年 试图 找到 快速 算法 ， 可 惜 至 今 都 未 能 成 功 。 


计算 困难 但 容易 验证 的 问题 

指数 级 难 判 定 的 问题 有 一 个 有 趣 的 特征 : 一 个 方案 可 以 被 很 快 地 验证 。 把 背包 问题 
表述 为 下 面 的 这 样 一 个 判定 问题 : 是 否 存在 价值 至 少 为 磊 的 方案 ”这 种 判定 形式 并 不 比 原 
问题 容易 。 人 然而， 验证 一 个 提出 的 方案 是 否 具有 少 于 的 价值 只 需要 线性 的 时 间 ， 因 为 只 
需要 把 所 选 物品 的 大 小 和 价值 加 起 来 即 可 。 旅 行商 问题 也 类 似 ， 验 证 所 提 的 一 个 路 线 长 度 
是 否 超 过 k 也 只 需 线性 的 时 间 。 

我 们 已 经 看 到 计算 机 科学 家 们 引入 记号 “P” 来 代表 能 够 在 多 项 式 时 间 内 解决 的 问题 
集合 ， 这 里 P 了 代表 多 项 式 级 ( Polynomial)。 任 何 P 类 的 问题 都 可 以 在 O(n) 时 间 内 解决 ， 
其 中 为 一 个 常数 。 

计算 机 科学 家 引入 记号 “NP” 来 代表 可 以 在 多 项 式 时 间 内 验证 的 问题 集合 ， 这 里 NP 
代表 非 确定 性 多 项 式 级 (Nondeterministic Polynomial) 。 非 确定 性 是 一 种 技术 表达 ， 指 可 
以 猜测 到 正确 答案 并 在 多 项 式 时 间 内 验证 。 对 于 NP 问题 ， 所 有 已 知 的 算法 都 需要 指数 级 
或 者 更 糟 的 运行 时 间 ， 但 对 于 每 一 个 方案 我 们 可 以 在 O(n) 时 间 内 进行 验证 。 

为 了 讨论 NP 问题 ， 我 们 需要 使 用 一 些 记 号 。 对 于 任何 一 个 NP 问题 4， 有 一 个 具有 
多 项 式 运 行 时间 的 验证 算法 Va, Vax, y) 验证 A(x) =y EAR MIL. Vax, y) 是 一 个 判定 问题 ， 
因为 它 的 输出 只 能 是 0 或 1 ( 见 图 6.6 )。 

我 们 容易 注意 到 ， 验 证 器 可 以 用 来 寻找 问题 4 的 解 。 假 设 我 们 想 针对 某 一 个 给 定 的 x 
计算 4(x)， 并 且 已 知 问题 的 解 最 多 包含 位 比特 。 我 们 可 以 枚 举 所 有 的 二 进 制 数 y = 0, 1, 
…, 2'1 并 计算 V(x, y)， 即 验证 是 否 A(x) = y。 如 果 其 中 任何 一 个 验证 通过 ， 那 我 们 就 找 
到 了 A(x) 的 解 。 这 个 搜索 过 程 是 0(2”) 复杂 度 的 ， 因 此 是 指数 级 困难 的 。 直 接 求解 A(x) 
的 算法 可 能 会 比 这 样 搜索 验证 要 快 ， 验 证 搜索 不 一 定 是 最 好 的 解决 方法 。 
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图 6.6 这 个 韦 恩 图 表明 了 P( 多 项 式 ) 类 判定 问题 与 NP( 非 确定 性 多 项 式 ) 类 判定 问题 之 间 的 关系 。 
每 一 个 属于 NP 类 的 判定 问题 A(x) 都 有 一 个 属于 P 类 的 验证 器 Va, y) 用 来 回答 “4(x) = y?” 
是 否 成 立 。 很 多 大 家 熟知 的 指数 级 困难 问题 都 是 NP 问题 ， 因 为 我 们 可 以 很 快 地 对 一 个 假定 
答案 进行 验证 。 不 过 暂时 还 不 知道 是 否 存在 能 够 快速 解决 NP 问题 的 算法 。 这 就 是 P = NP 
问题 ， 数 学 和 计算 科学 领域 中 最 重要 的 未 解决 问题 之 一 


NP 完全 


NP 问题 可 以 在 多 项 式 时 间 内 被 验证 ， 这 点 燃 了 探索 多 项 式 时 间 内 解决 NP 问题 的 
和 希望。 我 们 很 快 将 会 看 到 ， 如 果 某 个 特定 NP 类 中 的 某 一 个 问题 能 在 多 项 式 时 间 内 求解 ， 
那么 所 有 其 他 的 NP 问题 也 都 可 以 在 多 项 式 时 间 内 求解 ， 这 将 使 得 P = NP。 不 过 至 今 无 
法 证 明 P 了 是否 等 于 NP。 这 个 问题 也 是 数学 和 计算 科学 领域 的 最 重要 的 未 解决 问题 之 一 
(Cormen et al 2009 ) 。 

科学 家 和 工程 师 们 在 面 对 新 间 题 时， 经 常 将 它们 “ 归 约 ”成 一 个 以 前 的 问题 ， 而 这 
个 以 前 的 问题 已 经 有 良好 的 解决 办 法 。 例 如 ， 电 子 工 程 师 使 用 通用 电路 模拟 器 来 判断 他 们 
设计 的 电路 是 否 合理 ， 通 过 专门 的 描述 语言 向 模拟 器 描述 这 个 新 的 电路 要 比 单独 为 这 个 新 
电路 做 一 个 专门 的 模拟 器 要 更 容易 。 

算法 研究 者 也 使 用 同样 的 方式 去 探索 解决 问题 的 不 同 算法 之 间 的 关系 。 假 设 我 们 可 
以 把 方法 4 能 解决 的 一 个 问题 实例 转化 为 方法 B 也 能 解决 的 形式 ， 那 我 们 就 可 以 用 B 来 
得 到 4 的 解 。 这 就 是 从 4 到 B 的 一 个 归 约 。 这 样 一 个 归 约 表明 目标 方法 B 至 少 和 方法 4 
一 样 强 大 。 

当然 需要 强调 的 是 ， 归 约 必 须 是 很 快 的 一 一 多 项 式 时 间 级 的 。 如 果 归 约 转 化 过 程 需 要 
花费 指数 级 时 间 ， 那 使 用 B 将 没有 任何 意义 ， 因 为 这 无 法 给 我 们 探索 4 的 多 项 式 级 算法 
带 来 任何 希望 。 

如 果 我 们 可 以 找到 这 样 一 个 NP 问题 8， 使 得 每 一 个 NP 问题 4 都 可 以 在 多 项 式 时 间 
内 归 约 到 8， 那 将 会 怎样 ? 这 个 问题 的 解 将 会 适用 于 每 一 个 NP 问题 ， 使 我 们 探索 NP 问 
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题 的 快速 解法 变 得 容易 : 如 果 我 们 找到 这 个 基本 问题 B 的 快速 算法 ， 就 能 用 它 快速 解决 
每 一 个 NP 问题 4。 

1971 年 ，Steve Cook 引入 了 术语 “ NP 完全 ”来 指 代 NP 中 的 这 种 基本 问题 。 他 指出 
如 果 存 在 多 个 这 样 的 基本 问题 ， 则 每 个 都 可 以 归 约 到 其 他 的 基本 问题 。 只 要 其 中 的 任何 一 
个 问题 找到 快速 算法 ， 那 么 所 有 其 他 的 NP 问题 也 就 都 有 了 快速 算法 。 

Steve Cook 提出 的 第 一 个 NP 完全 问题 是 电路 可 满足 性 问题 ( CSAT)。 一 个 简单 布尔 
电路 可 看 作 是 一 组 相互 连接 且 不 包含 回路 的 逻辑 门 电路 (与 门 、 或 门 、 非 门 )。 它 的 输入 
是 一 个 0 和 1 的 集合 x， 输 出 是 0 或 1。CPU 电路 就 是 一 个 具有 多 个 输出 的 复杂 布尔 电路 。 

假定 C 是 具有 nn 条 输入 线 的 一 个 电路 ,这 些 输 入 的 设置 可 以 用 一 个 n 比特 二 进 制 数 x 
表示 ，C(x) 的 取 值 为 0 或 1。CSAT 问题 就 是 : 是 否 存在 某 个 输入 x 使 得 C(x)=1? 

显然 CSAT 是 一 个 NP 问题 ， 因 为 对 于 给 定 的 输入 x 我 们 可 以 很 快 地 验证 输出 是 否 为 
1， 只 需 在 电路 中 跟踪 信号 即 可 。 然 而 ,已 知 的 解决 可 满足 性 问题 的 最 好 算法 需要 枚 举 所 
有 可 能 的 x 并 依次 测试 ， 这 需要 O(2") 的 复杂 度 。 

Cook 正 是 通过 验证 器 Vi HOKE NP 中 的 任何 一 个 问题 4 归 约 到 CSAT。 当 4(x) =y 成 
立 ， 验 证 器 V(x, y) 的 取 值 为 1。 下面 是 归 约 转化 的 主要 过 程 。 

对 验证 器 Vu(x, y) 生成 对 应 的 电路 CV, y)， 这 个 电路 通过 一 系列 步 又 来 模拟 CPU 
的 操作 ， 每 个 步 又 可 以 执行 验证 程序 的 一 条 指令 。 每 个 步骤 都 会 把 指令 执行 前 的 所 有 机 器 
状态 (程序 、 内 存 、CPU 状态 字 、x、y) 映射 为 指令 执行 后 的 状态 ， 这 种 映射 是 通过 整个 
CPU 电路 的 一 个 拷贝 来 实现 的 。 因 为 验证 算法 在 O(n’) 步 完 成 ， 其 中 n = size(x) + size(y), 
对 应 的 电路 也 将 会 有 O(n") 个 步骤 。 这 个 电路 异常 复杂 ， 它 必须 记录 内 存 和 CPU 状态 的 
每 一 位 比特 来 作为 步 又 转移 之 间 传 递 的 信号 ， 而 且 步 又 的 数目 也 十 分 巨大 。 

一 旦 有 了 Vit, y) 模拟 电路 ， 经 过 略微 修改 ， 把 x 固定 为 一 个 给 定 的 输入 ， 只 保留 y 
为 未 指定 变量 ， 我 们 可 以 将 其 转换 成 一 个 电路 CO. WR Cy) 是 可 满足 的 ， 那么 存在 一 
个 使 得 CO) = 1， 而 这 只 有 在 4(x) = 了 成 立时 才能 满足 。 因 此 ，CSAT 对 于 该 电路 的 解 
就 是 使 得 A(x) = y 成 立 的 y 值 ( 见 图 6.7). 

因为 CSAT 本 身 是 NP 问题 ,并且 任何 其 他 的 NP 问题 都 可 以 归 约 到 它 ， 因 此 CSAT 
是 NP 完全 的 。 

在 Cook 提出 CSAT 是 NP 完全 问题 之 后 不 久 ，Richard Karp(1972) 发 现 了 其 他 的 21 
个 NP 完全 问题 。 几 年 后 ，Garey 和 Johnson(1979) 收集 了 科学 、 工 程 、 商 业 和 其 他 领域 
共 3000 个 常见 问题 ， 这 些 都 被 证 明 是 NP 完全 的 。 这 项 工作 具有 很 重大 的 意义 。 如 果 谁 
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能 为 这 3000 个 问题 中 的 任何 一 个 找到 快速 算法 ， 那 该 算法 就 可 以 转化 为 能 够 解决 其 他 
NP 完全 问题 的 快速 算法 ,也 同样 可 以 解决 其 他 所 有 的 NP 问题 。 大 量 我 们 暂时 无 法 解决 
的 实际 问题 到 时 候 都 有 可 能 得 到 解决 。 这 里 是 部 分 NP 完全 问题 : 





图 6.7 一 个 可 以 被 任何 NP 问题 归 约 的 问题 称 为 是 NP 难 的 。 电 路 可 满足 性 问题 (CSAT) 就 是 一 
个 NP 难 问题 ， 当 然 也 是 一 个 NP 问题 。CSAT 试图 回答 “是 否 存在 某 个 输入 使 得 给 定 的 电 
路 输出 1 ?” 通 过 构造 一 个 电路 [C:(y)] 来 模拟 验证 器 Vs 在 固定 输入 x 和 可 变 输入 y 下 的 行 
为 ,任何 NP 问题 4 都 可 以 归 约 到 CSAT。 如 果 CSAT 判定 “> 使 电路 CO) 满足 ”， 那 么 y 
= A(x) 也 就 得 到 验证 。CSAT 是 第 一 个 NP 完全 问题 的 例子 


电路 可 满足 性 问题 (CSAT， 如 前 文 所 述 )。 是 否 存 在 一 种 输入 使 得 电路 输出 为 1 ? 
可 满足 性 问题 ( SAT， 布尔 可 满足 性 )。 是 否 存 在 一 组 输入 值 使 得 给 定 的 布尔 表达 
HAR? 

e FAM. AA BA ATRERTA RAN DMEM SMBED A V2 

o 子 集 和 问题 。 给 定 一 个 包含 很 多 数字 的 集合 ， 是 否 存 在 一 个 非 空子 集 使 其 总 和 为 K? 
o 整理 单词 。 对 于 一 系列 随机 信件 ， 里 面包 含有 哪些 单词 ? 

e 了 哈密 顿 路 径 。 给 定 一 个 图 ， 是 否 存在 一 条 路 径 能 经 过 图 中 每 个 节点 恰好 一 次 ? 

o 旅行 商 问题 。 访 问 地 图 上 所 有 城市 的 最 短路 径 是 什么 ? 

o 团 (clique) 问题 。 在 一 个 社交 网 络 中 ， 找 到 由 彼此 相互 相识 的 节点 构成 的 集合 。 

。 死 锁 问题 。 在 一 个 网 络 中 找 出 这 样 的 节点 集合 ， 集 合 中 的 每 个 节点 都 停 下 来 等 待 
集合 中 其 他 节点 的 信号 。 
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o 图 和 网 络 流 问题 : 

a 着 色 问 题 。 最 少 需要 几 种 颜色 才能 使 得 图 中 任意 相 邻 的 两 个 节点 都 有 不 一 样 的 
颜色 ? 

e 节点 覆盖 。 找 到 一 个 节点 最 少 的 集合 ， 使 其 可 以 覆盖 图 中 的 每 条 边 。 

a 子 图 同 构 。 给 定 的 图 是 否 与 另 一 个 图 具有 同 构 的 子 图 ? 

m 独立 集 。 在 一 个 网 络 中 ， 找 出 彼此 不 相连 的 节点 (顶点) 集合 。 

@ 覆盖 集 。 在 一 个 网 络 中 ， 找 出 数目 最 小 的 节点 (顶点) 集合， 使 得 网 络 中 不 在 集 
合 中 的 节点 都 与 在 集合 中 的 某 个 节点 相连 。 

很 多 问题 都 被 表述 为 图 问题 ， 这 是 因为 图 可 以 很 方便 地 表示 我 们 日 常 所 接触 的 网 络 。 

尽管 很 多 智者 都 试图 探索 这 些 问 题 的 快速 算法 ， 不 过 至 今 还 无 人 成 功 。 许 许多 多 的 
经 验 、 观 察 似 乎 表明 NP 完全 问题 根本 不 存在 快速 算法 ， 也 就 是 P 关 NP. 

Fortnow (2009, 2013 ) 曾 设想 如 果 我 们 能 够 为 某 一 个 NP 完全 问题 找到 快速 算法 〈 即 
证 明 P = NP)， 世界 将 会 发 生 怎样 的 变化 。 他 预测 这 将 会 促使 一 场 经 济 变 革 ， 因 为 许多 难 
题 将 变 得 可 以 解决 。 也 有 很 多 人 不 这 么 认为 ， 因 为 启发 式 方法 上 的 巨大 进步 已 经 能 够 对 这 
些 实际 问题 产生 可 以 接受 的 良好 近似 解 ， 因 此 即使 我 们 能 够 得 到 最 优 解 ， 也 不 会 有 太 大 的 
进步 。 


不 可 计算 问题 

19 世纪 30 年 代 以 来 ， 研 究 计 算 的 数学 家 们 都 纷纷 意识 到 ， 存 在 一 些 函 数 是 无 法 计算 
的 。 其 原因 是 没有 足够 多 的 程序 来 计算 所 有 的 函数 ， 从 更 专业 的 角度 来 说 就 是 ， 所 有 可 能 
的 程序 是 可 数 的 ， 而 所 有 可 能 出 现 的 函数 却 是 不 可 数 的 :函数 空间 的 无 限 性 比 程 序 空间 的 
无 限 性 具有 更 高 的 阶 。 图 6.8 简要 说 明了 为 何如 此 。 

如 果 不 可 计算 问题 对 于 我 们 的 日 常生 活 来 说 无 关 紧 要 ， 那 我 们 对 它们 也 不 会 有 什么 
兴趣 。 但 事实 上 ， 这 些 问 题 确实 具有 重要 影响 。 有 许多 我 们 想 要 知道 的 事情 确实 是 无 法 计 
算 的 。 图 灵 在 1937 年 提出 的 一 个 例子 就 是 停机 问题 (halt problem): 通过 检查 一 个 给 定 的 
程序 和 对 应 的 输入 ， 我 们 是 否 能 够 判断 该 程序 在 此 输入 下 是 否 会 停机 (终止 )。 通 常情 况 
下 ， 程 序 是 否 会 终止 并 不 是 显而易见 的 ， 因 为 使 得 循环 能 够 终止 的 条 件 可 能 是 事先 无 法 知 
道 的 。 不 终止 的 程序 可 能 会 一 直 循环 下 去 。 不 管 我 们 设计 什么 方法 来 判断 程序 是 否 终止 ， 
都 不 能 依赖 于 模拟 程序 的 运行 ， 因 为 我 们 要 评估 的 这 个 程序 可 能 会 陷入 无 限 循环 ， 从 而 模 
拟 过 程 也 将 一 直 运 行 下 去 而 无 法 得 出 任何 结论 。 我 们 特别 希望 找到 的 是 一 种 测试 方法 ， 它 
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可 以 在 执行 程序 之 前 〈 即 无 需 执行 程序 ) 就 告诉 我 们 程序 中 是 否 存在 无 限 循环 。 然 而 ， 这 
样 的 测试 方法 并 不 存在 。 


SSE 
mee 








图 6.8 对 角 论 证 表明 了 为 什么 相 比 于 所 有 可 能 的 函数 ， 程 序 要 少 得 多 。 在 项 部， 我 们 枚 举 出 程序 
所 有 可 能 的 输入 ， 每 一 个 整数 代表 提供 给 程序 的 一 种 可 能 的 二 进 制 字符 串 输 入 。 同 样 ， 我 
们 可 以 在 左 侧 竖 向 枚 举 出 所 有 可 能 的 程序 ， 不 过 这 需要 一 个 更 精细 的 过 程 : 我 们 生成 每 一 
个 可 能 的 数字 的 对 应 二 进 制 字符 串 ， 并 用 编译 器 测试 该 字符 串 是 否 代表 了 一 个 合法 的 程序 ; 
如 果 是 ， 就 把 它 添 加 到 程序 列表 中 。 然 后 ， 我 们 用 PE j) 来 代表 程序 i 在 输入 为 /时 的 输 
出 。 因 为 每 一 个 程序 和 每 一 个 输入 都 会 出 现在 上 述 矩 阵 的 某 处 ， 因 此 该 矩阵 赛 括 了 所 有 的 
程序 和 输入 。 这 时 ， 如 果 我 们 把 所 有 的 对 角 元 素 替 换 掉 一 一 例如 把 P(k, k) 替换 为 P(k, k) + 
1 一 一 这 一 串 对 角 元 素 就 定义 了 一 个 新 的 程序 ， 但 这 个 新 的 程序 却 不 在 上 述 程序 列表 中 ， 因 
为 它 与 已 经 在 列表 中 的 任何 一 个 程序 都 至 少 在 某 一 个 输出 上 存在 冲突 。 这 种 形式 的 论证 被 
数学 家 Georg Cantor (RHE) 用 来 证 明 存 在 比 有 理 数 更 多 的 实数 ， 因 此 有 时 候 被 称 为 “ 康 托 
对 角 化 ” 


图 灵 证 明了 停机 问题 是 一 个 定义 清楚 但 不 可 计算 的 问题 。 而 图 灵 提 供 的 证 明 是 对 
逻辑 的 一 种 巧妙 运用 。 他 采用 反 证 法 ， 先 假设 存在 一 个 程序 五 能 够 检测 程序 了 是 否 终 
tk: 车 程序 P(x) 终止 则 ACP, x) 输出 1， 若 程序 P(x) 不 终止 则 ACP, x) 输出 0。 我 们 必须 
假定 程序 P 和 输入 x 具有 适当 的 二 进 制 代 码 表示 。 如 果 存 在 这 样 的 检测 程序 A, 我们 把 
它 作为 程序 G 的 一 个 子 程序 ， 如 图 6.9 所 示 。 这 个 时 候 ， 如 果 我 们 把 程序 G 自身 的 一 份 
代码 拷贝 作为 程序 G 的 输入 ， 就 会 出 现 一 个 悖 论 。 当 输入 是 程序 自身 时 ， 无论 程序 G 行 
为 如 何 ， 我 们 都 会 得 出 了 矛盾。 因此， 我 们 在 前 面 做 的 关于 存在 检测 程序 五 的 假设 是 不 成 


立 的 。 
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图 69 如 果 停机 问题 可 解 ， 则 会 存在 一 个 可 计算 的 程序 如 可 以 告诉 我 们 一 个 程序 Po 会 终止 (1) 
还 是 不 会 (0)。 因 为 它 是 可 计算 的 ， 我 们 可 以 编写 该 方法 对 应 的 一 个 软件 模块 ， 然 后 构造 一 
个 更 大 的 模块 G， 它 把 五 作为 一 个 子 程序 。G 首先 询问 Aw, w) 是 否 会 终止 ， 如 果 回 答 是 
“AR ik’ (1), G 就 进入 一 个 无 限 循 环 ; 如 果 回 答 是 “不 会 终止 "(0),G 则 直接 把 五 的 输出 (0) 
进行 输出 。 当 w = G， 即 输入 是 G 的 一 个 副本 时 ， 就 会 出 现 矛盾 。 如 果 假 设 G(G) 会 终止， 
那么 H(G, G) = 1， 这 会 迫使 G 陷入 无 限 循 环 。 如 果 我 们 假设 G(G) 不 会 终止 ， 那么 HG, G) 
= 0， 此 时 G 却 终止 了 。 两 种 假设 一 -G(G) 会 终止 或 O 不 会 终止 一 都 导致 了 矛盾 。 因 
此 ,我 们 关于 五 是 可 计算 的 假设 是 不 正确 的 

这 个 矛盾 看 似 如 此 怪异 ! 很 多 人 都 认为 这 个 证 明令 人 难以 置信 ， 对 此 的 反应 是 认为 
这 是 一 个 骗 人 的 把 戏 。 

有 一 个 很 著名 的 论断 “这 句 话 是 错 的 "， 也 展示 了 一 种 类 似 的 悖 论 。 它 看 似 是 一 个 合 
理 的 论述 ,但 事实 上 不 管 你 假设 它 成 立 还 是 不 成 立 ， 它 都 与 自身 相 了 矛盾 。 或 者 ， 还 可 以 
来 看 看 Bertrand Russell 提出 的 问题 :“ 小 镇 上 唯一 的 理发 师 给 ( 且 仅 给 ) 那些 不 给 自己 
刊 脸 的 人 刊 脸 ， 那 谁 给 这 个 理发 师 乔 脸 ?” 不 管 你 假设 理发 师 是 否 给 自己 刊 脸 ， 都 会 出 现 
矛盾 。 

悖 论 产 生 的 根源 在 于 自我 引用 。 当 我 们 构造 一 个 句子 ， 而 该 句子 对 自身 做 出 断言 
(assert) 时 ， 就 有 可 能 出 现 悖 论 ， 而 程序 G 就 是 这 么 做 的 。 当 进行 有 关 自 我 的 陈述 时 ， 这 
很 可 能 会 是 悖 论 式 的 ， 从 而 没有 任何 意义 。 

在 停机 问题 中 ， 前 面 的 悖 论 意味 着 我 们 无 法 创建 一 个 检测 是 否 停 机 的 程序 。 如 果 我 
们 试图 去 创建 这 样 的 程序 ， 我 们 就 会 遇 到 一 个 矛盾 。 逻 辑 规则 使 得 我 们 无 法 做 到 这 一 点 。 

目前 来 看 ， 没 有 办 法 避 开 这 种 矛盾 。 在 程序 停机 问题 中 ， 一 个 常见 的 避免 矛盾 的 学 
REE G 程序 开始 之 前 添加 一 个 检测 来 判断 输入 是 否 是 G 自身 的 程序 ， 如果 是 ，G 直接 
返回 0。 这 么 做 的 问题 在 于 ， 对 于 任何 一 个 函数 都 存在 太 多 的 (事实 上 是 无 限 多 的 ) 等 价 
程序 。 一 个 简单 的 例子 是 加 法 函数 4(x) =x+1; 它 可 以 用 x+ MN 的 形式 来 实现 ， 其 中 
M 和 WN 可 以 是 任意 整数 ， 只 要 它们 满足 M= N+ 1。 因此， 即使 G 在 输入 为 自身 的 时 候 拒 
绝 操 作 ， 仍 然 会 在 计算 同样 这 个 函数 的 另 一 个 输入 G' 时 触发 矛盾 ， 因 为 G(G') 同样 是 悖 
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还 有 很 多 其 他 的 很 有 意思 的 不 可 计算 问题 。 在 每 个 问题 情况 下 ， 我 们 都 发 现 如 果 该 
问题 可 计算 ， 则 所 提出 的 方案 最 终 总 会 导致 可 以 判定 停机 问题 ， 从 而 与 停机 问题 的 不 可 判 
定性 相 矛 盾 。 这 些 不 可 计算 问题 的 例子 包括 : 


忙碌 海 猩 (busy beaver) 问题 。BB(x) 代表 任何 一 个 包含 x 条 指令 的 程序 会 最 多 移 
动 多 少 步 然后 终止 。[ 如 果 我 们 能 够 计算 BB 问题 ， 我 们 也 就 能 够 解决 停机 问题 。 
对 于 一 个 含有 x 条 指令 的 程序 我们 只 需要 模拟 BB(x) 步 ， 如 果 程 序 终 止 了 就 说 
明 这 个 程序 是 可 终止 的 ， 否 则 说 明 该 程序 不 会 终止 。] 

全 体 (totality) 问题 。 程 序 A(x) 是 否 在 每 一 个 可 能 的 输入 x 下 都 会 终止 ?[ 如 果 可 
以 判定 ， 我 们 则 构造 一 个 程序 B(x)， 它 忽略 输入 的 xX， 而 针对 任意 给 定 的 函数 斑 和 
输入 yy 去 计算 Fly)。 那 么 ， 当 且 仅 当 Fy) 能 停机 时 B(x) 能 在 所 有 输入 下 停机 。] 

等 价 性 问题 。 两 个 程序 4 和 B 是 计算 相同 的 函数 吗 ? 换 句 话 说， 是 否 对 于 所 有 的 
输入 x 都 满足 A(x) = B(x)? [ 按 如 下 方式 构造 程序 Ba): CHAT A(x), wR A(x) 
能 停机 ，B(x) 在 A(x) 终止 时 输出 1。 构 造 程序 C(x) : 它 忽 略 输入 x 而 简单 地 输出 
1。 如 果 有 一 个 算法 能 判定 B 和 CC 是否 等 价 ， 这 个 算法 也 就 针对 A(x) 回答 了 全 体 
问题 。] 

代码 行 问题 。 程 序 中 的 任意 某 一 特定 行 的 代码 是 否 被 执行 了 ? [把 程序 修改 为 当 且 
仅 当 A(x) 终止 时 执行 该 行 。] 

对 应 问题 。 给 定 两 种 编码 方式 4 和 BB， 是 否 存在 一 个 消息 序列 xi, x2, x3, …, X WE 
得 AODA) A) = BEB) BE? 即 同一 个 消息 序列 在 两 种 编码 方式 下 
产生 了 相同 的 编码 结果 。 例 如 , 令 4= (a, ab, bba), B= (baa, aa, bb)， 消 息 序列 
3231 在 两 种 编码 方式 下 都 生成 bbaabbbaa。[ 我 们 可 以 设计 这 样 一 种 编码 ， 它 代表 
一 个 程序 的 单条 指令 执行 ， 其 中 4(i) 代表 第 i 条 指令 执行 之 前 的 机 器 状态 ，B(i) 代 
表 第 i 条 指令 刚 执 行 完 的 机 器 状态 。 那 么 ， 只 有 程序 终止 时 4 和 B 的 序列 才能 匹 
配 。 换 和 句 话说 这 个 系统 足够 强大 ， 使 得 我 们 可 以 对 程序 每 一 步 的 执行 过 程 进 行 编 
码 。 如 果 对 应 问题 存在 解决 办 法 ， 则 说 明 被 编码 的 程序 会 终止 。] 


关于 程序 ， 还 有 很 多 我 们 想 了 解 的 实际 问题 ， 它 们 也 都 是 不 可 判定 的 。 我 们 之 所 以 
知道 它们 是 不 可 计算 的 ， 是 因为 一 旦 我 们 能 够 判定 这 些 问 题 中 的 任何 一 个 ， 我 们 也 就 可 以 
用 同样 的 方法 去 判定 停机 问题 。 

任何 一 个 基于 检验 的 方法 ， 如 果 它 声称 能 回答 几乎 任何 一 个 有 关 代 码 的 有 趣 问题 ， 
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它 都 会 能 够 判定 停机 问题 。 阿 兰 ， 图 灵 基 于 此 种 观察 得 出 结论 ， 数 学 家 证 明定 理 的 行为 是 
内 在 可 计算 的 ， 因 而 甚至 “基于 检查 ”的 方法 也 是 可 计算 的 。 而 一 个 试图 回答 关于 另 一 
个 计算 方法 的 问题 的 计算 方法 ， 它 在 回答 问题 时 往往 会 陷 和 人 到 对 自身 提出 同一 个 问题 的 困 
H, 这 常常 会 导致 蔬 盾 。 





总 结 


本 章 讲述 了 很 多 重要 的 基本 问题 ,我 们 来 总 结 一 下 其 中 的 要 点 。 

所 有 的 计算 方法 都 需要 花费 时 间 并 且 消 耗 能 量 ， 我 们 一 般 以 所 执行 的 指令 数 来 衡量 
花费 的 时 间 (或 能 量 )。 

我 们 用 数量 级 符号 On) KERK n 比较 大 时 ,一 个 计算 所 执行 的 指令 数 的 增长 
与 ftn) 呈现 比例 关系 。 这 个 记号 忽略 常数 而 只 关注 长 期 的 增长 趋势 。 例 如 一 个 耗 时 An + 
B 的 计算 其 复杂 度 为 O00)， 不 论 4 和 下 是 多 少 ; 当 n 比较 大 时 其 复杂 度 增长 与 n 时 线性 
关系 。 

所 有 的 问题 (函数 ) 都 可 以 按照 它们 的 已 知 最 佳 算法 的 复杂 度 来 进行 排序 。 例 如 ， 排 
序 问 题 是 O(nlogn) 级 的 ， 因 为 最 好 的 排序 算法 花费 的 时 间 正 比 于 nlogn。 当 然 也 有 更 糟糕 
的 排序 算法 ， 例 如 O(n’) 级 复杂 度 的 。 

很 多 问题 都 被 表述 为 判定 问题 ， 结 果 用 是 〈1 ) RE (0 ) 表示 ， 例 如 程序 4(x) EA 
会 终止 ? 有 没有 访问 所 有 城市 的 长 度 小 于 磊 的 路 径 ? 还 有 一 些 问 题 表 述 为 优化 问题 ， 例 如 
找到 最 佳 的 背包 方案 或 最 短 的 旅行 路 线 。 为 了 一 致 ， 我 们 把 优化 问题 转换 为 对 应 的 判定 问 
题 。 一 个 问题 的 优化 表述 形式 ， 其 复杂 度 至 少 不 低 于 它 对 应 的 判定 表述 形式 。 

我 们 把 所 有 能 够 在 多 项 式 时 间 内 进行 判定 的 问题 划分 到 了 类， 把 所 有 可 以 在 多 项 式 
时 间 内 进行 验证 的 问题 划分 到 NP 类 。 对 于 一 个 NP 问题 4， 即 使 它 唯一 已 知 的 解决 方案 
具有 指数 级 复杂 度 ， 但 它 的 验证 器 是 多 项 式 级 的 。 验 证 器 可 以 用 来 寻找 问题 4 的 解 ， 但 
真 要 这 么 做 的 话 ， 需 要 搜索 所 有 可 能 的 值 ， 所 以 实际 上 可 能 会 比 直接 求解 4 还 慢 。 关 于 
是 否 P= NP 的 问题 ， 被 大 家 认为 是 数学 和 计算 科学 领域 最 重要 的 开放 问题 之 一 。 

归 约 就 是 把 适用 于 方法 4 的 一 个 问题 转化 为 适用 于 方法 如 的 另 一 个 问题 的 转换 过 程 ， 
从 而 使 得 B 的 解决 方案 也 是 4 的 解决 方案 。“ 4 可 归 约 到 B” 意 味 着 B 足够 强大 ， 至 少 可 
以 在 所 有 输入 情况 下 回答 问题 4。 

如 果 所 有 的 NP 问题 都 可 以 归 约 到 某 一 个 问题 ， 那 么 这 个 问题 就 是 一 个 NP 完全 问 
题 。 电 路 可 满足 性 问题 CSAT 就 是 一 个 NP 完全 问题 。 每 个 NP 完全 问题 都 可 以 归 约 到 其 
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他 的 NP 完全 问题 ， 其 中 任意 一 个 问题 的 具有 多 项 式 时 间 复 杂 度 的 算法 也 都 可 以 转化 成 其 
它 NP 完全 问题 的 多 项 式 时 间 复 杂 度 解法 。 目 前 在 科学 、 工 程 、 经 济 和 社会 科学 等 领域 已 
知 的 NP 完全 问题 超过 3000 个 。 这 意味 着 对 这 些 问题 而 言 ， 我 们 已 知 的 最 好 算法 也 至 少 
是 指数 级 复杂 度 ， 甚 至 更 糟 。 从 经 验证 据 来 看 ， 人 们 似乎 有 理由 相信 了 + NP, AAMT 
上 万 的 人 在 试图 寻找 这 些 问 题 的 快速 算法 但 是 都 失败 了 。 

还 有 一 大 类 问题 是 属于 无 法 判定 的 ， 例 如 停机 问题 。 这 些 问 题 的 不 可 判定 性 ， 从 根 
本 上 来 讲 是 因为 它们 允许 一 个 响应 关于 任何 程序 查询 的 程序 提出 一 个 针对 其 自身 的 查询 ， 
从 而 导致 悖 论 。 回 答 这 些 问题 从 逻辑 上 来 说 是 不 可 能 的 。 

我 们 面临 着 一 些 困 境 。 我 们 希望 计算 机 为 我 们 解决 的 很 多 问题 是 如 此 复杂 ， 以 至 于 
计算 机 无 法 在 一 个 合理 时 间 内 返回 给 我 们 结果 。 还 有 一 些 问题 从 逻辑 上 就 是 无 法 计算 的 。 
因此 我 们 很 大 程度 上 依赖 于 启发 式 (近似 方法 )， 这 类 方法 很 快 ， 但 是 并 不 能 在 每 个 输入 
条 件 下 都 准确 地 判定 或 找到 最 优 解 。 我 们 通常 依赖 实验 性 的 方法 ， 来 刻画 启发 式 方法 什 
么 时 候 有 效 、 什 么 时 候 不 有 效 。 计 算 复 杂 度 带 来 的 限制 迫使 我 们 从 实验 性 的 角度 去 理解 
计算 。 
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在 互联 网 中 进行 搜索 要 比 大 海 捞 针 更 困难 ， 它 是 在 一 扒 针 里 面 寻 找 一 枚 针 。 
Hubert Dreyfus 
对 那些 按 随机 方式 访问 、 但 每 隔 五 分 钟 就 会 被 再 次 用 到 的 磁盘 页 ， 将 它们 缓存 起 来 。 
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我 能 找到 它 吗 ?这 是 计算 中 最 常见 的 一 个 问题 。 我 们 所 要 寻找 的 信息 ， 存 放 在 存储 
器 的 某 个 地 方 。 而 存储 器 这 么 一 个 简单 的 词 ， 掩 盖 了 存储 系统 的 复杂 和 浩瀚 。 如 何在 存储 
器 中 快速 地 找到 我 们 想 要 的 信息 ， 以 及 如 何 将 信息 快速 地 传递 到 需要 它 的 地 方 ， 这 两 者 都 
非常 重要 。 

存储 系统 的 结构 会 在 很 大 程度 上 影响 其 性 能 。 我 们 以 天 气 预报 为 例 ， 来 看 看 问题 的 
难点 。 天 气 预报 算法 的 设计 者 ， 将 需要 预报 的 大 气 层 区 域 分 成 了 10 000 个 小 立方 体 ， 并 
为 每 一 个 立方 体 分 配 了 位 于 超级 计算 机 上 的 一 个 单独 的 1GHz 处 理 咒 来 进行 处 理 。 他 们 
想 知道 ， 这 个 系统 能 否 达 到 这 组 处 理 器 联合 起 来 对 应 的 10THz 处 理 总 速度 。 如 果 能 的 话 ， 
他 们 预计 可 以 在 3 小 时 内 完成 明天 的 天 气 预 报 。 但 是 ， 假 定 在 每 个 处 理 器 上 运行 的 这 个 算 
法 ， 需 要 在 每 执行 完 100 万 条 指令 ( 耗 时 1 上 毫秒) 之 后 暂停 ,去 从 硬盘 获取 一 组 原始 的 天 
气 数据 ， 并 为 此 花费 10 毫秒 的 磁盘 访问 时 间 。 那 么 完成 100 万 条 指令 ， 花 费 的 总 时 间 就 
是 处 理 时 间 加 上 磁盘 访问 时 间 ， 即 11 毫秒 。 因 此， 这 个 系统 实际 的 运行 速度 比 预想 的 速 
度 要 慢 11 倍 ， 将 需要 33 个 小 时 才能 计算 出 明天 的 天 气 。 这 种 情况 下 ， 超 级 计算 机 并 没 发 
挥 太 大 的 用 处 ， 因 为 它 的 存储 系统 不 能 足够 快 地 把 数据 传递 到 处 理 器 。 

早 在 通用 处 理 器 出 现 之 前 ， 存 储 就 成 为 信息 系统 中 需要 慎重 考虑 的 一 个 问题 。 例 如 ， 
在 20 世纪 50 年 代 成 为 一 家 计算 机 公司 之 前 ，IBM 早已 是 一 家 商业 的 机 器 公司 了 。 他 们 
制造 了 一 些 很 复杂 的 机 器 ， 用 来 在 穿孔 卡 上 选择 和 记录 数据 。 一 些 公司 使 用 IBM HHLA 
来 记录 工资 单 、 跟 踪 消 费 者 信息 ， 以 及 管理 存货 。IBM 在 1956 年 引入 磁盘 存储 ， 这 给 商 
业 处 理 带 来 了 变革 的 希望 。 因 为 有 了 这 种 技术 ， 用 来 摆 放 文件 柜 的 仓库 可 以 融 为 一 张 小 小 
的 磁盘 ， 还 可 以 让 中 央 处 理 器 运行 一 些 复杂 的 算法 ,来 自动 检索 和 分 析 数 据 。 


计算 机 工程 师 一 直 都 很 清楚 ， 存 储 方面 的 制约 是 影响 计算 机 实际 运行 速度 的 一 个 重 
要 瓶颈 。 程 序 员 一 直 都 在 努力 编写 尽 可 能 少 占用 存储 空间 的 软件 ， 工 程 师 则 一 直 在 努力 建 
造 更 大 的 存储 器 ; 与 此 同时 ， 性 能 分 析 员 则 致力 于 寻找 在 存储 空间 受 限 条 件 下 对 计算 速度 
进行 预测 的 方法 。 

透 过 计算 机 发 展 的 历史 我 们 可 以 看 到 ， 人 们 一 直 在 努力 构建 更 高 效 的 存储 系统 ， 使 它 
能 够 跟 上 处 理 器 的 速度 ， 并 降低 从 本 地 的 或 远程 的 磁盘 存储 设备 中 获取 数据 的 开销 。 工 程 
师 发 现 了 用 来 组 织 存 储 器 的 三 类 指导 原则 ， 使 得 高 速 处 理 成 为 可 能 。 命 名 (naming) 原则 
涉及 创建 二 进 制 串 或 字母 数字 符 串 ， 用 来 识别 数字 对 象 ( digital object) B4t (mapping) 
原则 涉及 将 一 个 名 字 (name) 转换 成 处 理 站 点 与 包含 数字 对 象 的 存储 位 置 之 间 的 一 个 连 
接 。 定 位 (positioning) 原则 涉及 谨慎 地 将 数据 从 远程 存储 位 置 移动 到 临近 的 本 地 存储 
位 置 ， 从 而 实现 性 能 的 优化 。 计 算 学 科 中 最 早 的 科学 原理 之 一 一 一 局 部 性 原理 ( locality 
theory) 一 一 被 用 于 优化 存储 系统 中 的 信息 移动 。 
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在 关于 信息 的 第 3 章 中 我 们 曾 提 到 ,信息 可 以 用 任何 一 种 可 保持 状态 并 能 被 传感器 
观测 到 的 物理 量 来 表示 。 有 很 多 技术 可 以 适用 于 存储 系统 。 表 7.1 列 出 了 存储 系统 的 一 些 
基本 特性 。 我 们 将 在 本 章 讨论 这 些 特性 ， 并 指出 那些 能 够 使 得 原本 会 非常 复杂 的 存储 系统 
变 得 有 条 理 的 一 些 原则 。 

存储 系统 常 被 看 作 是 一 种 仓库 。 我 们 在 那里 存放 数据 ， 并 在 之 后 需要 的 时 候 重 新 取 
出 〈 回 想起 ) 这 些 数据 。 台 式 机 上 的 随机 访问 存储 器 ( RAM) 是 一 个 存放 字 节 的 仓库 ， 这 
些 字 节 包 括 能 够 控制 中 央 处 理 器 (CPU) 运行 的 程序 代码 ， 以 及 这 些 程序 所 要 操作 的 数 
据 。 硬 盘 或 云 服 务 器 则 是 存放 文件 的 仓库 。 但 是 ， 并 非 所 有 的 存储 器 看 上 去 都 像 仓 库 。 对 
于 脑 神经 网 络 模型 来 说 ， 它 存储 的 是 当前 传 感 数据 和 之 前 记录 的 传 感 数据 的 组 合 模式 ; 在 
检索 时 ， 存 储 器 返回 一 个 与 先 验 模式 共享 特性 的 模式 ， 但 可 能 与 之 前 所 有 的 模式 都 不 同 
( 详 见 Kanerva 2003 ) 。 

存储 器 的 层级 结构 是 计算 系统 中 永恒 的 一 种 特性 。 最 顶层 是 访问 速度 最 快 的 设备 ， 
因为 只 有 它们 能 跟 上 CPU 的 速度 。 较 慢 的 设备 放 在 较 低 的 层 ， 被 用 来 做 永久 存储 和 备份 。 
当 CPU 需要 的 时 候 ， 数 据 将 沿 着 这 个 层级 结构 向 上 移动 ， 而 当 它 不 再 被 需要 时 ， 数 据 会 
问 下 移动 。 然 而 ， 顶 层 存 储 的 高 速度 是 以 易 变 性 为 代价 的 一 一 当 设 备 断 电 时 ， 快 速 存储 器 
中 的 数据 将 会 丢失 。 较 慢 的 存储 设备 (例如 硬盘 ) 则 能 够 一 直 保 存 它 们 的 数据 ， 直 到 这 些 
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数据 被 明确 擦 除 。 层 次 结构 带 来 的 一 种 影响 是 ， 计 算 机 性 能 的 优化 并 不 仅仅 在 于 寻找 使 用 
最 少 CPU 指令 的 算法 那么 简单 ; 很 大 程度 上 ， 它 还 取决 于 数据 在 层级 存储 中 的 存放 方式 。 
这 些 权衡 还 反映 在 存储 设备 的 价格 上 。2014 年 ， 访 问 时 间 为 约 15 纳 秒 的 RAM， 售 
价 是 每 GB 大 约 5 美元 ; 而 访问 时 间 为 约 5 毫秒 的 硬盘 ， 售 价 是 每 GB 大 约 10 美 分 。 这 
两 种 技术 的 访问 速度 相差 300 万 倍 以 上 。 而 在 1960 年 的 时 候 ， 情 形 则 完全 不 同 ， 那 时 候 
iS RAM 和 硬盘 存储 系统 的 成 本 都 高 达 每 字 节 0.3 美元 ， 容 量 最 大 也 只 有 SM 字 节 ， 两 
者 之 间 的 访问 速度 差异 大 约 是 1 万 倍 。 
容量 非常 大 、 速 度 非常 快 并 且 能 持续 保存 的 存储 器 将 来 可 能 会 出 现 。 它 们 可 能 会 依 
赖 于 一 些 新 的 技术 ,例如 电子 自 旋 或 者 有 机 状态 。 即 便 如 此 ， 速 度 与 开销 之 间 的 权衡 , 仍 
然 会 推动 存储 设备 的 层级 结构 继续 向 前 发 展 。 


表 7.1 存储 器 基本 特性 
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MH. RI, HPA. BRL 

状态 任何 可 以 被 改变 和 观测 的 物理 状态 。 | 点、 电流 方向 、 声 音 延 迟 线 上 的 声音 

me 形 、 阴 极 射线 管 上 的 荧光 体 、 神 经 回路 
不 稳定 性 失去 能 量 时 的 状态 消失 ; 非常 快速 的 访问 at ge eee 


状态 保持 直到 被 改变 或 擦 除 ; 较 慢 的 访问 |” 硬盘、 磁带 、 光 盘 
检索 到 与 之 前 存储 时 完全 一 致 的 数据 | RAM、 硬 盘 、 互 联网 云 服 务 器 


EN | oan 被 检索 的 数据 与 存储 的 数据 有 关联 ， 但 | MRENA (Kanerva), MEE 
和 获取 不 一 定 相 同 储 器 (associative memory )、 神 经 网 络 
检测 之 前 存储 的 数据 是 否 仍 存在 云 服务 器 、 文 件 系统 校 验 软件 
访问 所 有 存储 位 置 需要 的 时 间 是 相同 的 | RAM、 网 络 包 来 回 传输 时 间 (KEO 


”| 位 置 相关 访问 时 间 取决 于 数据 在 媒体 中 的 位 置 | “自动 点 唱机 、 阴 极 射线 管 、 硬 盘 、 光 
访问 盘 、DVD 


时 间 | 序列 相关 访问 时 间 取 决 于 在 一 个 序列 中 的 位 置 令 牌 环 、 声 音 延 迟 线 


位 置 序列 混合 人 列 中 的 | 硬盘 定位 磁头 ， 然 后 从 磁道 上 读 或 写 
poen 对 象 管理 器 验证 主体 请 求 方 是 否 有 执行 | 文件 或 数据 库 系统 的 访问 控制 列表 ， 目 
访问 所 申请 的 操作 的 权限 录 项 中 的 访问 控制 字段 


控制 oe 虚拟 存储 器 映射 表 和 能 力 列 表 中 的 访问 


存储 器 的 基本 使 用 模型 
我 们 用 主体 - 对 象 模型 来 描述 存储 器 访问 的 一 般 机 制 。 主 体 (subject) 是 指 可 以 对 存 
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储 的 数字 对 象 发 出 访问 请 求 的 任何 实体 。 数 字 对 象 是 指 用 来 存放 代表 了 某 个 事物 的 一 组 比 
特 的 容器 。 最 为 常见 的 一 种 主体 是 代表 某 个 特定 用 户 运行 的 计算 进程 〈( 即 运行 中 的 程序 )。 
例如 ， 如 果 用 户 “pjd” 启 动 了 “372” 进 程 ， 只 有 当主 体 “(pjd，372 )” 拥 有 对 象 “存储 
位 置 433” 的 读 访问 权限 时 ， 存 储 系统 才 会 允许“372” 进 程 读 取 “ 存 储 位 置 433”。 

这 个 模型 一 一 “主体 ”请 求 对 “对 象 ”进行 操作 一 一 揭示 了 存储 系统 中 三 方面 本 质 : 

1) 对 每 个 对 象 进 行 命名 : 使 用 一 个 比特 或 符号 模式 串 来 代表 一 个 对 象 ， 从 而 将 它 与 
其 他 对 象 区 分 开 来 。 

2) 将 对 象 的 名 字 映 射 到 包含 该 对 象 的 存储 位 置 ， 从 而 建立 主体 和 对 象 之 间 的 信息 流 
路 径 。 

3 ) 认证 对 象 的 拥有 者 是 否 授权 允许 某 主 体 对 对 象 进行 所 要 求 的 访问 。 

一 旦 这 三 步 完 成 ,请求 的 操作 就 会 被 执行 ， 而 信息 则 会 沿 着 主体 - 对 象 的 路 径 传 递 。 
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考虑 到 有 各 种 各 样 的 存储 技术 被 实际 使 用 ， 所 以 当 我 们 发 现存 在 很 多 种 数据 访问 方 
式 时 ， 对 此 不 应 感到 奇怪 。 存 在 多 种 访问 方式 的 一 个 本 质 原因 是 ， 根 据 所 处 的 特定 环境 ， 
需要 选择 最 恰当 的 数据 组 织 方式 ， 从 而 优化 数据 的 使 用 。 例 如 ， 程 序 员 选 择 对 数据 进行 排 
序 ， 从 而 支持 频繁 的 二 分 查找 。 一 个 公司 采用 标准 的 记录 结构 来 存储 它 的 员工 记录 ， 使 得 
可 以 方便 地 检索 出 符合 管理 者 所 给 的 搜索 条 件 的 所 有 记录 。 图 书馆 通过 杜威 十 进 制图 书 分 
类 法 来 组 织 图书 和 文件 ， 使 得 读者 能 迅速 地 在 一 堆 书 中 找到 他 想 要 的 那 一 本 。 许 多 领域 ， 
例如 医药 、 生 物 以 及 会 计 行 业 ， 已 经 发 展 出 一 些 分 类 法 ， 用 来 帮助 识别 和 分 类 新 的 对 象 。 
为 某 种 目的 而 设计 的 数据 组 织 方式 ， 可 能 在 这 种 目的 下 很 有 效 ， 但 如 果 用 于 其 他 目的 ， 则 
可 能 会 导致 惨痛 的 失败 。 非 结构 化 的 互联 网 已 经 令 很 多 人 大 为 失望 ， 尽 管 它 宣 称 可 以 访问 
全 世界 的 信息 ， 实 际 上 却 是 一 个 非常 糟糕 的 信息 检索 系统 。 

尽管 处 于 这 么 多 样 化 的 环境 中 ,命名 数据 的 主要 模式 也 只 有 六 种 。 大 多 数 人 每 天 都 
会 使 用 到 这 六 种 模式 。 表 7.2 给 出 了 分 类 。 

在 前 3 种 模式 中 ， 名 字 是 一 个 长 度 固 定 的 二 进 制 串 一 一 地 址 (address)、 地 址 对 
(address pair) 或 者 句柄 (handle)。 地 址 通过 用 线性 地 址 空间 来 对 存储 位 置 进行 命名 ， 常 
用 的 地 址 有 32 个 比特 。 地 址 对 则 选取 众多 地 址 空间 中 的 一 个 ， 然 后 用 它 来 命名 一 个 位 
置 。 句 酉 是 文件 或 文件 夹 这 类 对 象 的 全 局 唯一 识别 符 ， 它 们 通常 比 地 址 要 长 得 多 ， 例 如 
128 个 比特 。 句 柄 需要 更 长 ， 因 为 它们 必须 能 在 整个 互联 网 中 被 唯一 识别 。 本 地 操作 系统 





127 
2 


129 


102 #7 


‘Ry 


生成 句柄 的 一 个 常用 方式 是 ， 结 合 本 地 时 钟 时 间 惟 和 一 个 特定 的 机 器 识别 符 ， 例 如 用 于 局 
域 网 的 媒介 访问 控制 (MAC) 地 址 。 以 这 种 方式 生成 的 句柄 ， 一 定 不 会 短 于 本 地 时 钟 的 长 
RE (例如 64 比特 ) 加 上 MAC 地 址 的 长 度 (48 比特 )。 因 为 一 台 机 器 不 会 同时 生成 2 个 对 
象 ， 这 种 方法 保证 了 不 会 有 其 他 机 器 生成 同样 的 句柄 。 目 前 实际 存在 的 对 象 数量 远 远 小 于 





句柄 空间 的 大 小 一 一 对 象 大 约 27 个， 而 句柄 空间 有 2 ”个 句柄 一 一 大 部 分 可 用 的 句柄 从 
未 被 使 用 过 。 


表 7.2 访问 模式 










在 拥有 2? 个 位 置 的 
固定 地 址 | 线性 地 址 空间 中 选择 | 存储 器 硬件 将 地 址 
(2 位 ) 一 个 位 置 ; 一 般 n =| 映 射 到 物理 位 置 

32 或 64 
在 拥有 2” 个 位 置 
的 分 段 地 址 空间 中 选 
择 一 个 位 置 ; n= 
32 或 64 
分 配给 系统 中 每 个 
对 象 的 特定 nn 位 标识 
符 ; 一 般 n= 128; 4J 
HAZE [Al AY: 只 
有 极 少 的 句柄 分 配 出 
ET 


编译 器 输出 机 器 编码 来 表 
示 变 量 和 状态 标签 的 位 置 ; 
它们 可 以 被 硬件 识别 
















RAM、 虚 拟 存 储 
器 、 机 器 码 、IP 地 址 
























存储 器 被 分 段 ， 每 
段 是 一 个 线性 存储 空 
fal; 地 址 (s, x) 选 
HT Et s 的 x 位 置 


一 些 编译 器 把 每 个 对 象 分 | 每 个 文件 是 一 个 字 
配给 它们 各 自 的 段 ; 一 些 操 | 节 线性 序列 的 文件 系 
作 系 统 将 所 有 文件 视 作 一 个 | 统 、JAVA 程序 中 的 
分 段 地 址 空间 
操作 系统 分 配 特定 句柄 给 | Unix/Linux 文件 在 
每 个 对 象 ， 包 括 对 象 的 新 版 | 创建 时 会 给 定 一 个 唯 
本 ; 识别 符 能 被 管理 特定 类 | 一 的 “i-nodes”; 所 
型 对 象 的 子 系统 识别 ， 例 如 | 有 出 版 者 分 配 数字 对 
文件 句柄 可 以 被 文件 系统 识 | 象 识别 符 (DOI) 用 于 
别 出 来 永久 识别 每 个 出 版 物 
操作 系统 将 路 径 名 字 映 
射 到 句柄 ; 互联 网 域名 系 
统 (Domain Name System, 
DNS) 将 主机 名 映射 到 下 
















固定 地 址 
对 (每 个 nn 
位 ) 

























操作 系统 将 一 个 句 
柄 映射 给 一 个 对 象 描 
述 子 ， 描 述 子 给 出 了 
对 象 在 存储 器 中 的 详 
细 信 息 









固定 句柄 
(n 位 句柄 ) 































用 户 对 象 用 符号 命 

名 并 以 树 的 形式 组 织 | 为 文件 夹 的 层次 结 

起 来 ; 一 个 路 径 名 是 | 构 ; 每 棵 树 是 一 些 各 
映射 到 特定 主机 上 的 文件 


数据 库 管理 系统 选 | 匹配 查询 表达 式 的 本 地 记 | 商用 数据 库 系 统 ， 
和 的 和 AL | 择 所 有 符合 查询 条 件 | 录 ; 创建 列表 、 组 合 和 统计 | 例 如 使 用 接口 语言 
S 的 记录 摘要 MySQL 的 Oracle 


操作 系统 将 树 表示 用 户 选 择 出 现在 文 
件 夹 上 的 名 字 ; 互联 


符号 序列 网 域名 是 层次 化 的 ; 















图 书馆 信息 检索 系 
检索 系统 找到 包含 i 

xke | 可 存 于 文档 中 的 文 | 或 在 “语义 上 ”接近 | 找到 大 量 集合 中 的 相关 文档 | 统 ; TENERI, 

ÆR 例 i Google, Bing, 


该 文本 串 的 文档 集合 
Yahoo 


在 第 4 种 模式 中 ， 名 字 是 一 个 向 用 户 表 达 某 种 含义 的 符号 串 。 这 种 名 字 的 例子 包括 
互联 网 主机 名 、 文 件 路 径 名 以 及 互联 网 页 面 的 URL 等 。 这 个 模式 位 于 其 他 模式 之 上 ( 见 
图 7.1 )。 
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gmu.edu/cs 符号 名 字 


O-0-0 , 
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图 7.1 名 字 是 用 来 代表 每 个 个 体 数字 对 象 的 符号 。 有 四 种 命名 方式 按 层 组 织 ， 一 层 到 在 另 一 层 之 
上 ， 上 一 层 的 名 字 会 映射 到 下 一 层 的 名 字 (如 图 中 虚线 箭头 所 示 )。 最 上 层 由 所 有 用 户 生成 
的 符号 名 字 组 成 ， 例 如 网 页 URL。 它 的 下 一 层 则 由 创建 对 象 的 机 器 上 的 操作 系统 所 生成 的 
所 有 句柄 组 成 。 为 了 实现 在 整个 互联 网 共享 任意 一 个 对 象 ， 句 柄 必须 保持 始终 唯一 。 再 下 
一 层 则 由 CPU 执行 进程 时 所 使 用 的 本 地 虚拟 存储 地 址 空间 组 成 。 最 底层 由 物理 存储 器 地 址 
组 成 ， 例 如 RAM 的 物理 页 或 磁盘 上 的 记录 。 在 本 例 中 ,符号 和 名字“ gmu.edu/cs” 指 的 是 一 
个 在 主机 “gmu.edu” 上 的 文件 “cs”; 这 个 名 字 可 能 是 网 页 读 请 求 的 一 部 分 。 互 联网 域名 
系统 (Domain Name System, DNS) 将 主机 名 转换 为 对 应 的 IP 地 址 ， 而 该 IP 地 址 上 的 操作 
系统 将 “ cs” 转换 为 文件 的 句柄 。 那 台 机 器 上 的 文件 系统 将 句柄 映射 到 进程 在 虚拟 存储 器 
中 的 某 个 文件 ， 以 响应 该 网 页 的 读 请 求 。 虚 拟 存 储 器 将 文件 地 址 映射 到 保存 了 该 文件 的 具 
体 物 理 位 置 。 动 态 更 改 映射 的 能 力 将 带 来 重要 的 优势 。 举 例 来 说 ， 虚 拟 存储 器 组 件 (例如 
TL) 可 以 在 不 改变 地 址 的 情况 下 重 定位 。 文 件 可 以 在 不 改变 句柄 的 情况 下 重 定位 。 数 字 对 象 
的 新 版 本 可 以 在 不 改变 URL 的 情况 下 接收 新 的 句柄 


最 后 的 两 种 访问 模式 ,将 用 户 选 择 的 一 个 符号 表达 式 映 射 为 一 组 数据 对 象 。 这 个 表 
达 式 用 来 从 一 个 大 的 集合 中 选择 一 些 元 素 ， 例 如 从 企业 数据 库 中 选择 雇员 记录 ， 或 从 图 书 
馆 中 选择 文档 。 查 询 (query) 模式 使 用 一 种 正规 的 逻辑 语言 来 描述 一 组 检索 条 件 ， 用 于 匹 
配 一 些 特定 的 记录 而 排除 其 他 的 记录 。 文 本 (text) 模式 则 只 是 查询 包含 了 给 定 文本 串 的 
文档 。 这 两 种 模式 都 需要 大 量 的 搜索 。 例 如 ， 取 决 于 数据 库 的 大 小 ， 一 个 查询 可 能 只 花费 
几 秒 钟 ， 也 可 能 花费 几 分 钟 。 谷 歌 的 经 验 向 我 们 表明 ， 一 旦 对 所 有 的 网 页 内 容 进行 预 处 理 
并 生成 索引 ， 使 得 我 们 能 对 某 个 文档 是 否 包含 特 定单 词 做 出 快速 判断 ， 那 么 我 们 就 能 在 半 
秒 之 内 得 到 一 个 搜索 串 的 匹配 结果 。 在 搜索 网 页 时 ， 常 常会 有 几 十 万 个 或 几 百 万 个 “搜索 
命中 ”(hit)。 值 得 注意 的 是 ， 谷 歌 的 表示 算法 能 对 命中 列表 进行 排序 ， 使 得 许多 用 户 可 以 
在 前 十 个 命中 结果 中 找到 有 用 的 信息 (MacCormick 2012 )。 但 即便 如 此 ， 许 多 用 户 仍 然 
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觉得 在 网 页 中 搜寻 信息 就 像 大 海 捞 针 一 样 难 ( 见 图 7.2 )。 
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图 7.2 数据 库 可 以 可 视 化 地 表示 成 一 张 拥有 许多 记录 的 表 ， 每 张 表 包含 了 一 个 标准 的 字段 名 集合 。 
查询 则 是 一 个 逻辑 公式 ， 它 可 以 选择 出 匹配 查询 规则 的 那些 记录 。 例 如 , “salary > 50000 & 
sex = 上 ”匹配 了 第 3、5 和 7 条 记录 。“sex = M & seniority > 10” 只 能 匹配 第 6 条 记录 。 而 
“sex = M & salary > 55000” 则 匹配 不 到 任何 记录 。 查 询 访 问 是 通过 内 容 或 特性 而 不 是 名 字 
来 寻找 信息 的 一 种 方式 。 一 个 典型 的 查询 可 以 返回 多 个 条 目 。 数 据 库 系统 依赖 于 4 个 原则 
来 避免 数据 的 丢失 和 不 一 致 : (1) 数据 库 中 的 记录 要 复制 并 存放 到 多 台 服 务 器 上 ; (2 ) 事 
务 处 理 是 “原子 的 "， 即 对 数据 库 进行 事务 操作 带 来 的 影响 要 在 单个 步 又 中 完成 ; (3 ) 事务 
状态 被 临时 记录 下 来 ， 以 便 出 错 的 时 候 可 以 恢复 之 前 状态 ; (4 ) 数据 库 以 多 张 表 的 形式 存 
储 ， 这 些 表 可 以 快速 组 合 起 来 ， 以 便 响 应 一 个 查询 
所 有 这 六 种 访问 模式 都 提供 了 位 置 无 关 性 (location independence): 用 户 可 以 对 数字 
对 象 进行 操作 ， 而 无 需 知 道 这 些 对 象 具 体 所 在 的 位 置 。 自 从 20 世纪 60 年 代 首 次 应 用 于 
虚拟 存储 系统 之 后 ， 位 置 无 关 性 就 显现 出 了 它 的 益处 。 在 虚拟 存储 中 ， 不 管 某 个 虚拟 地 址 
在 层级 存储 结构 中 实际 位 于 何 处 ， 我 们 通过 这 个 虚拟 地 址 总 是 能 读 取 到 正确 的 值 。 由 Sun 
公司 (1984) 提出 的 网 络 文件 系统 (NFS)， 使 得 用 户 可 以 在 网 络 的 任意 位 置 简单 通过 全 
局 目录 树 中 的 路 径 名 来 访问 文件 。 当 今 的 云 数 据 仓 库 是 一 种 能 够 容忍 崩溃 的 分 布 式 系统 ， 
它 将 数据 扩散 到 数 千 台 其 他 的 服务 器 上 而 不 改变 数据 的 名 称 。 一 个 网 页 的 URL 地 址 ， 会 
映射 到 某 台 主机 上 的 一 个 文件 ， 而 用 户 不 用 考虑 主机 的 物理 位 置 ， 以 及 这 台 主 机 的 内 部 文 
件 系统 结构 。 互 联网 协议 会 将 数据 包 转 发 给 指定 的 服务 器 ， 而 无 需 担 心服 务 器 到 底 在 哪 
里 。 域 名 系统 (DNS) 将 主机 名 转换 为 主机 当前 的 IP 地 址 ， 不 管 主机 的 地 理 位 置 在 哪里 。 
当 物 理 位 置 变 得 不 相关 时 ， 隐 藏 了 位 置 的 系统 使 用 起 来 就 会 更 简单 、 更 可 靠 。 然 而 ， 位 置 
无 关 性 并 不 总 是 有 帮助 的 : 移动 设备 上 的 许多 应 用 会 依赖 于 “地 理 位 置 ”服务 。 
互联 网 搜索 是 六 种 模式 中 最 难 的 一 种 。 能 够 和 所 给 的 搜索 关键 字 匹配 上 的 对 象 ， 其 
数量 很 可 能 是 非常 庞大 的 一 一 匹配 的 文档 可 能 有 成 千 甚至 上 百 万 个 。URL 几乎 无 法 提供 


H > 


任何 关于 文档 内 容 的 线索 。 尽 管 谷歌 的 网 页 排序 算法 在 找 出 有 用 文档 方面 已 经 做 得 非常 出 
色 ， 用 户 仍 然 经 常会 遇 到 这 种 情况 ， 即 排 在 最 前 面 的 那些 文档 并 没有 什么 用 。 此 外 ， 有 大 
量 的 信息 隐藏 在 那些 与 互联 网 相连 但 存储 于 数据 库 的 “ 深 网 ”中 ， 它 受到 密码 和 查询 接口 
的 保护 。 搜 索引 擎 无 法 对 它们 建立 索引 。 没 有 人 知道 这 个 “ 深 网 ”究竟 有 多 大 ， 但 是 大 多 
数 的 估计 认为 它 占 整 个 互联 网 信息 的 90% 以 上 。 因 此 ,“ 整 个 世界 的 信息 都 在 互联 网 上 ” 
这 个 想法 是 具有 误导 性 的 : 大 多 数 的 信息 并 不 能 被 搜索 到 ， 而 能 被 搜索 到 的 情况 下 还 可 能 
出 现 信 息 过 载 ( 译 者 注 : 有 用 信息 被 大 量 无 用 的 相关 信息 淹没 )。 


映射 


映射 是 将 一 个 名 字 对 应 到 一 个 位 置 的 过 程 。 由 于 存在 多 种 访问 模式 和 存储 技术 ， 因 
此 映射 技术 也 相当 复杂 。 幸 运 的 是 ,它们 都 以 一 些 简 单 的 原则 为 基础 。 

映射 的 基本 思想 是 实现 一 个 动态 函数 下， 使 得 F(x) 表示 名 字 为 x 的 对 象 的 当前 位 置 。 
映射 下 以 表格 的 形式 来 存储 。 当 一 个 程序 请 求 读 (或 写 ) 对 象 x 时， 操作 系统 实际 上 会 对 
位 置 F(x) 进行 读 (或 写 )。 当 操作 系统 移动 对 象 x 时 ， 它 会 更 新 这 张 表 来 记录 下 新 的 位 置 。 
将 名 字 和 位 置 分 开 ， 从 而 实现 位 置 无 关 性 一 一 无 论 程 序 所 访问 的 对 象 在 存储 器 中 使 用 了 何 
种 存储 配置 ， 这 个 程序 都 可 以 正常 执行 。 


虚拟 存储 


自从 映射 原则 在 20 世纪 60 年 代 初 被 提出 以 来 (Kilburn et al. 1962 )， 它 就 成 为 虚 
拟 存储 系统 的 基石 。 虚 拟 存储 器 被 设计 用 来 自动 处 理 二 级 存储 器 〈 磁 盘 ) 和 一 级 存储 器 
(RAM) 之 间 的 数据 移动 。 将 这 些 数据 的 移动 自动 化 ， 可 以 显著 减少 程序 员 的 负担 ， 从 而 
使 得 他 们 的 生产 力 提高 两 到 三 倍 (Sayre 1969 )。 虚 拟 存储 系统 需要 解决 两 个 问题 : 

1 ) 使 每 个 程序 拥有 独立 的 地 址 空间 ， 并 使 这 个 地 址 空间 成 为 位 置 无 关 的 。 

2 ) 减少 在 磁盘 和 RAM 之 间 数 据 移 动 的 次 数 。 

位 置 无 关 性 极其 重要 ， 因 为 随 着 数据 在 存储 器 中 经 常 发 生 移动 ， 每 个 具体 数据 项 的 
确切 位 置 是 无 法 提前 预测 的 ， 因 此 不 能 让 它 干扰 程序 的 执行 。 可 以 用 一 个 简化 的 映射 原则 
(基于 地 址 空间 的 分 页 ) 来 解决 这 个 问题 。 程 序 的 地 址 空间 被 分 成 若干 个 大 小 相同 的 块 ， 
称 为 逻辑 页 (page)，RAM 的 地 址 空间 也 被 分 成 相同 固定 大 小 的 块 ， 称 为 物理 页 (frame). 
任何 一 个 逻辑 页 都 可 以 被 载 人 到 任意 一 个 物理 页 中 。 进 行 RAM 访问 的 具体 过 程 如 下 : 
(1 ) 程序 所 访问 的 线性 地 址 被 分 解 成 逻辑 页 编号 和 页 内 地 址 ; (2 ) 映射 表 将 逻辑 页 编号 转 
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换 成 物理 页 编号 ; (3) 物理 页 编号 和 页 内 地 址 重新 组 合 ， 生 成 一 个 RAM 中 的 线性 地 址 偏 
移 量 。 我 们 已 经 知道 如 何 高 效 地 完成 这 个 过 程 '。 

在 多 任务 编程 时 ， 虚 拟 存储 提供 了 一 种 强大 的 方式 来 划分 RAM 中 的 存储 空间 ， 从 而 
分 配给 多 个 程序 使 用 (Denning 1970) ( 见 图 7.3 )。 执 行 某 个 程序 的 CPU 只 能 访问 它 自 己 
的 逻辑 页 列表 中 的 那些 页 ; 属于 其 他 地 址 空间 的 逻辑 页 是 不 可 见 的 ，CPU 也 绝 不 可 能 生 
成 那些 逻辑 页 的 RAM 物理 页 地 址 。 这 种 近乎 完美 的 地 址 空间 隔离 是 一 种 非常 有 力 的 信息 
保护 机 制 。 即 便 拥 有 足够 大 的 RAM 可 以 将 所 有 地 址 空间 完整 地 装载 进 内 存 ， 许 多 系统 仍 
然 采 用 虚拟 存储 ， 来 达到 信息 保护 的 目的 。 
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图 7.3 在 本 例 中 ， 两 个 CPU 要 在 它们 各 自 的 地 址 空间 中 分 别 访问 对 象 A1 和 A2。 地 址 空间 被 分 成 
了 8 个 大 小 为 512 字 节 的 逻辑 页 ，RAM 被 分 成 16 个 大 小 为 512 字 节 的 物理 页 (用 于 存储 
逻辑 页 )。CPU 使 用 12 个 比特 来 存储 地 址 ，3 比特 用 于 表示 逻辑 页 编号 ，9 比特 用 于 表示 页 
内 地 址 (512 = 2 )。RAM 使 用 13 个 比特 来 表示 存储 地 址 ，4 比特 用 于 物理 页 编号 ，9 比特 
用 于 页 内 地 址 。 箭 头 表 示 了 哪个 逻辑 页 需要 被 载 人 RAM. 例如， 左边 的 CPU 的 3 号 逻辑 
页 被 载 人 了 5 号 物理 页 ， 而 右边 的 CPU 的 3 号 逻辑 页 被 载 人 了 11 号 物理 页 。 这 些 箭头 所 
代表 的 关联 被 存储 在 每 个 CPU 的 页 表 中 。 在 RAM 中， 页 表 被 存储 在 一 块 不 处 于 任何 地 址 
空间 的 私有 区 域 中 。 左 边 的 CPU 要 访问 线性 地 址 1540， 它 位 于 3 号 页 ， 页 内 地 址 为 4。 根 
据 页 表 ， 存 储 器 映射 单元 (Memory Mapping Unit, REMH) 将 该 地 址 转换 为 2 号 物理 页 ， 
业内 地 址 4， 即 RAM 中 的 线性 地 址 1028 Aho RAM 里 有 6 个 物理 页 没有 被 分 配 任何 地 址 空 
fal (灰色 的 )。 如 果 CPU 需要 访问 不 在 RAM 中 的 某 个 逻辑 页 ,“ 页 错误 中 断 ” 将 请 求 操 作 
系统 载 人 该 页 ， 并 更 新 页 表 
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最 小 化 数据 的 移动 是 一 个 更 需要 技巧 的 问题 。 程 序 的 整个 地 址 空间 对 应 有 一 个 完整 
的 副本 ， 它 存放 在 磁盘 的 某 个 文件 中 。 在 任何 时 候 ， 程 序 的 全 部 逻辑 页 中 都 只 有 一 个 子 
集 被 载 人 到 RAM 中 。 页 表 为 每 一 页 标记 了 它 是 否 在 RAM 中 。 例 如 ， 在 图 7.3 中 ,不 在 
RAM 中 的 页 被 表示 为 空白 。 如 果 存 储 映射 单元 遇 到 一 个 不 在 RAM 中 的 页 ， 它 显然 无 法 
完成 地 址 转换 。 这 时 ， 它 将 触发 一 个 缺 页 (page fault) 中 断 ， 从 而 启动 操作 系统 的 缺 页 处 
理 程序 来 完成 下 列 动作 : 1) 将 缺失 的 逻辑 页 的 副本 从 磁盘 拷贝 到 RAM 中 的 一 个 空白 物 
理 页 中 , (2) 更 新 页 表 ， 来 表明 该 页 已 经 在 某 物理 页 中 , (3) 将 控制 权 交 还 给 刚才 被 中 
断 的 程序 ， 它 重新 进行 地 址 转换 。 

操作 系统 通过 一 个 替换 策略 来 决定 哪些 页 应 该 留 在 RAM 中 。 当 系统 需要 一 块 空 的 物 
理 页 时 ， 替 换 策略 会 选择 RAM 中 不 会 很 快 被 用 到 的 页 ， 将 它 与 磁盘 上 的 副本 同步 ， 然 后 
标记 它 为 未 出 现 ， 并 将 它 所 在 的 物理 页 加 到 空闲 物理 页 列表 中 。 系 统 的 性 能 与 替换 策略 密 
切 相 关 ， 因 为 每 个 被 替换 出 去 的 页 都 会 导致 将 来 被 访问 时 出 现 缺 页 中 断 。 巧 妙 利用 局 部 性 
原理 (本 章 后 续 会 讨论 ) 的 替换 策略 ， 能 够 最 小 化 替换 的 次 数 ， 并 保证 最 快 的 完成 时 间 。 
精通 局 部 性 原理 的 程序 员 ， 可 以 合理 安排 数据 访问 以 提高 局 部 性 ， 从 而 在 虚拟 存储 系统 中 
得 益 更 多 (Sayre 1969 ) 。 


-一 一 
共享 


不 幸 的 是 ， 虚 拟 存储 的 这 种 隐藏 相互 地 址 空间 的 能 力 ， 妨 碍 了 存储 系统 的 另 一 个 常 
见 的 目标 : 允许 用 户 共享 数据 。 一 些 操 作 系 统 尝试 在 虚拟 存储 上 增加 共享 功能 ,但 很 少 取 
得 成 功 。 

一 种 方法 是 ， 通 过 一 个 操作 系统 接口 来 提供 地 址 空间 之 外 的 共享 存储 块 。 一 组 进程 
可 以 按 以 下 方式 共享 存储 。 这 组 进程 的 主导 进程 向 操作 系统 请 求 分 配 一 块 共享 存储 区 ， 然 
后 它 将 指向 这 个 共享 块 的 指针 的 副本 分 发 给 组 内 的 其 他 进程 。 通 过 进一步 调用 操作 系统 ， 
组 内 的 成 员 进 程 可 以 读 写 这 个 共享 的 存储 块 。 当 这 组 进程 结束 时 ， 主 进程 通知 操作 系统 释 
放 这 个 共享 的 块 。 这 种 设计 存在 许多 问题 ， 它 很 笨拙 而 且 容 易 出 错 : 很 难 在 共享 的 存储 区 
实现 同步 以 防止 竞争 ;如 果 主 进程 崩溃 的 话 ， 就 没 人 来 释放 共享 存储 区 了 ; 这 种 共享 存储 
区 只 能 供 同一 台 机 器 上 共用 同一 个 操作 系统 的 进程 所 使 用 。 

上 述 设计 有 一 个 变种 ， 避 免 了 使 用 操作 系统 接口 。 它 将 共享 数据 载 人 到 物理 页 中 ， 
在 每 个 进程 的 地 址 空间 中 选择 一 个 未 使 用 过 的 逻辑 页 ， 最 后 将 每 个 进程 选择 的 逻辑 页 都 映 
射 到 那个 物理 页 中 。 这 使 得 共享 的 物理 页 变 成 了 这 组 进程 的 地 址 空间 中 的 一 员 。 尽 管 这 个 
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方案 在 读 写 共 享 页 时 不 需要 调用 操作 系统 ， 但 带 来 另 一 个 很 大 的 缺点 。 如 果 这 个 共享 物理 
页 的 位 置 有 任何 变化 ， 组 内 所 有 进程 的 页 表 都 需要 更 新 。 如 果 组 内 有 许多 进程 ， 或 者 一 些 
进程 的 计算 被 暂停 ， 这 个 更 新 会 花费 相当 长 的 时 间 。 

一 个 更 好 的 方法 是 为 所 有 的 共享 对 象 定 义 一 个 新 的 名 字 空 间 。 句 柄 空间 可 以 很 好 地 
完成 这 个 任务 。 能 力 系统 (capability system) 体现 了 这 个 原则 。 


能 力 


AE 77 -F HE (capability addressing) 是 在 全 局 范围 内 共享 对 象 的 一 种 通用 方法 。 能 力 寻 
址 是 1966 年 由 Jack Dennis 和 Earl Van Horn 共同 发 明 的 ， 并 在 随后 被 不 断 完善 *。 能 力 
(capability) 是 指 一 个 包括 句柄 、 访 问 码 和 校 验 和 的 大 型 比特 位 模式 〈 见 图 7.4 )。 当 一 个 
主体 向 操作 系统 请 求生 成 一 个 新 的 对 象 时 ， 操 作 系统 会 生成 一 个 新 的 能 力 ， 并 将 创建 者 作 
为 拥有 者 〈owner)。 拥 有 者 可 以 交 出 能 力 的 副本 ， 降 低 自身 的 权限 ， 甚 至 规定 某 个 副本 不 
能 被 再 次 复制 。 


type Tights handle check 


图 7.4 能 力 A 是 一 个 由 4 个 字段 组 成 的 长 比特 模式 。type 描述 了 这 个 能 力 指向 的 对 象 类 别 ， 例 如 
文件 、 数 据 库 记录 或 互联 网 连接 。rights 字段 则 是 一 个 比特 串 ， 用 来 说 明 该 能 力 可 以 在 给 定 
类 型 上 进行 哪些 操作 。 例 如 ， 对 文件 来 说 , rights 可 能 是 4 个 比特 ， 对 应 了 文件 操作 的 打开 、 
关闭 、 读 和 写 。handle 域 包含 了 一 个 句柄 。check 是 一 个 加 密 校 验 和 ， 用 于 确认 该 能 力 的 内 
容 自 创 建 后 没有 被 更 改过 。B 是 一 个 文件 能 力 的 例子 ， 表 示 它 拥有 对 句柄 指向 的 文件 进行 
读 和 打开 (“ro”) 操作 的 权限 。 文 件 系 统 (文件 的 对 象 管理 器 ) 利用 如 图 7.5 所 示 的 一 张 哈 
硕 表 将 句柄 映射 到 文件 位 置 。 文 件 系统 只 接收 文件 能 力 而 拒绝 所 有 其 他 能 力 
每 个 进程 都 有 它 所 拥有 的 对 象 句柄 的 一 个 能 力 列表 。 基 于 哈 希 的 映射 结构 高 效 地 表 
示 了 能 力 和 对 象 之 间 的 关联 (Fabry 1974) (如 图 7.5 )。 能 力 列表 枚 举 了 一 个 CPU 能 访问 
的 所 有 对 象 ， 而 不 仅仅 是 内 存 页 。 而 关于 某 个 对 象 是 否 由 内 存 页 来 实现 ， 诸 如 此 类 的 细节 
则 被 交 给 处 理 该 类 型 对 象 的 子 系统 来 解决 。 
能 力 寻 址 中 的 一 个 关键 假设 是 ， 能 力 的 持 有 者 拥有 能 力 中 所 指定 的 那些 权限 。 对 象 
管理 器 只 是 简单 地 接收 能 力 ， 它 不 检查 访问 控制 列表 来 判定 调用 者 是 否 有 权限 。 理 论 上 





讲 , 一 个 侵入 系统 内 核 的 黑客 有 可 能 更 改 能 力 或 者 进行 非法 复制 。 但 是 发 生 这 种 损害 的 可 
能 性 足够 低 ， 使 得 这 种 系统 是 可 用 的 。 


CL 


(12,3)! k 


哈 希 描述 符 


© 12101110011). 
|| | @ 
CL a 


el T 


CPU q 5101110011" 


6 T 


图 7.5 两 层 映射 结构 使 得 我 们 可 以 共享 数字 对 象 。 描 述 符 列表 (Descriptor Table, DT) 是 唯一 列 
出 每 个 对 象 的 位 置 的 表格 。 数 字 对 象 唯 一 的 句柄 存储 在 能 力 中 ， 而 全 部 的 能 力 被 存放 在 一 
个 能 力 列表 (Capability List) 中 。 哈 希 函 数 互 将 句柄 映射 到 一 个 较 短 的 哈 希 码 ， 这 个 哈 希 
码 可 以 定位 对 象 的 描述 符 ， 而 该 描述 符 指向 了 目标 对 象 的 存储 地 址 。 在 这 个 例子 中 ， 顶 部 
进程 将 共享 的 对 象 记 为 能 力 12， 而 底部 CPU 则 将 之 记 为 能 力 5。 两 个 CPU 都 请 求 对 象 的 
第 3 行 。 哈 希 函 数 将 句柄 转换 成 一 个 4 位 的 哈 希 值 并 作为 DT 的 索引 。DT 中 的 项 包含 了 一 
个 指向 位 置 10 的 描述 符 ， 也 就 是 对 象 的 基地 址 。 如 果 操 作 系 统 因为 各 种 理由 重 定 位 了 这 个 
共享 的 对 象 ， 它 只 要 简单 地 更 新 描述 符 来 表示 新 的 基地 址 就 可 以 了 ， 所 有 参与 共享 的 进程 
都 会 被 定向 到 新 的 位 置 











能 力 系统 在 “约束 ”方面 非常 有 效 ， 这 意味 着 可 以 确保 每 个 计算 进程 只 有 与 自己 的 
工作 相关 的 对 象 的 权限 ， 而 没有 其 他 的 权限 。 能 力 系统 具有 高 容错 性 ， 因 为 错误 会 被 约束 
在 一 个 小 的 保护 域内 而 不 会 通过 系统 进行 传播 。 能 力 寻 址 是 实现 诸如 Java, Smalltalk 和 
Python 这 类 面向 对 象 系统 的 一 个 重要 的 原则 (Wulf et al. 1974, Miller 2003 ) 。 因 为 能 力 
可 以 作为 参数 在 网 络 中 客户 端 和 服务 器 端 之 间 的 消息 中 传输 ， 它 可 以 被 轻易 地 扩展 到 像 
Amoeba ( Tanenbaum & Mullender 1981 ) 或 Tahoe-LAFS 这 样 的 分 布 式 环境 中 ?。 能 力 中 
的 加 密 校 验 和 使 得 它们 很 难 被 伪造 ， 这 意味 着 服务 器 可 以 信任 它们 ， 并 将 它们 视 作 客户 端 
拥有 权限 的 证 明 。 

能 力 寻 址 原则 在 互联 网 中 被 独立 地 发 明 并 用 于 实现 数字 对 象 ， 其 动机 是 克服 标准 的 
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网 页 URL 所 具有 的 局 限 性 。 常 见 情况 下 ， 对 象 的 拥有 者 改变 了 对 象 的 内 容 ， 将 它 移 到 了 
一 台 主 机 上 ， 甚 至 可 能 删除 了 这 个 对 象 。 用 户 如 果 很 意外 地 发 现 对 象 的 内 容 被 更 改 了 ， 
或 者 重要 的 对 象 突然 消失 ， 他 们 多 半 会 很 不 高 兴 。 在 第 一 种 情况 下 ， 共 享 对 象 的 内 容 可 能 
不 是 用 户 所 期 望 的 内 容 。 在 第 二 种 和 第 三 种 情况 下 ， 没 办 法 通知 用 户 说 某 个 对 象 有 了 新 的 
URL 或 已 经 永久 消失 了 。 对 于 发 布 者 来 说 ， 他 们 和 希望 自己 的 工作 能 一 直 被 成 功 地 引用 和 
访问 ， 因 此 上 面 的 局 限 性 就 是 不 可 容忍 的 了 。 在 不 修改 网 络 节点 的 操作 系统 的 前 担 下， 为 
了 解决 这 些 问题 , Robert Kahn 和 Robert Wilensky ( 1995 ) 为 互联 网 提出 了 能 力 寻 址 原则 。 
他 们 开发 了 一 个 名 为 handle.net 的 服务 ， 可 以 让 用 户 注 册 句 柄 以 及 对 应 的 URL。 用 户 可 
以 通过 发 布 这 些 句 柄 来 共享 对 象 ( 见 图 7.6 )。 句 柄 系统 提供 了 一 种 方式 来 访问 任意 注册 过 
的 对 象 ， 即 使 过 去 多 年 后 对 象 被 转移 到 了 新 的 服务 器 上 ， 或 是 获得 了 新 的 URL， 仍 然 不 
影响 大 家 对 对 象 的 访问 。 国 会 图 书馆 创建 了 一 个 数字 对 象 标识 ( DOI) 系统 ， 可 以 让 所 有 
出 版 者 为 他 们 的 出 版 物 生成 句柄 ， 并 在 图 书馆 中 注册 它们 。 图 书馆 依赖 出 版 者 来 维护 它们 
的 内 容 ， 如 果 某 个 出 版 者 停业 了 ， 并 且 没 有 将 它 拥有 的 内 容 转移 到 别 的 服务 器 ， 那 么 这 些 
内 容 会 变 得 无 法 访问 ， 因 为 它 的 DOI 不 指向 任何 地 方 (Denning & Kahn 2010 ) 。 
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认证 

从 很 早 以 前 ， 信 息 保 护 就 是 操作 系统 设计 者 关心 的 一 个 首要 问题 (Dennis & Van Horn 
1966, Wikes 1968 a, Denning 1971, Lampson 1974, Saltzer & Schroeder 1975 ) 。 在 将 名 
字 映 射 到 对 象 的 这 个 环节 ， 操 作 系 统 需 要 确认 发 出 请 求 的 主体 确实 拥有 执行 该 操作 的 权 
限 。 这 个 确认 的 过 程 被 称 为 访问 控制 (access control). 

一 般 来 讲 ， 对 象 的 拥有 者 ( 它 的 创建 者 ) 会 声明 谁 能 够 以 何 种 方式 访问 它 。 一 个 授权 
是 一 个 形式 为 “主体 s 可 以 在 对 象 x 上 执行 函数 ”的 陈述 ， 可 以 简写 为 (s, fx). 一 个 
主体 通常 是 一 个 用 户 和 该 用 户 所 拥有 的 某 个 进程 的 组 合 。 例 如 ，s = (Ann, 317) 指 Ann 在 
执行 的 317 进程 。 一 个 类 似 于 “ Ann 的 任何 进程 都 有 读 文 件 “ abc ”的 权限 ”的 授权 可 以 
简写 为 ((Ann, *), read, abc)， 其 中 * 表示 任何 一 个 进程 。 可 以 执行 的 操作 取决 于 对 象 的 类 
型 。 例 如 ， 读 操作 只 能 用 于 文件 或 内 存 页 ， 而 暂停 操作 只 能 用 于 进程 。 每 个 对 象 管理 器 都 
有 责任 阻止 那些 可 能 违反 授权 的 访问 。 例 如 ， 如 果 只 有 ((Ann, *), read, abc) 这 个 授权 ， 文 
件 系统 将 阻止 Ann 对 “abc” 进 行 写 操作 访问 。 

访问 控制 列表 (ACL) 是 用 来 表示 授权 的 一 种 常用 方式 。 一 个 对 象 x 的 拥有 者 会 创建 
ACL[x]， 而 ACL[x] 中 的 项 具有 (s, f) 这 样 的 形式 。 只 有 当 ACL[abc] 包含 ((Ann, *), read) 
这 个 项 的 时 候 ， 文 件 系 统 才 会 允许 Ann 去 读 文 件 “abc”。 目 录 系 统 和 数据 库 系 统 会 对 每 
个 目录 项 或 数据 库 记 录 关 联 一 个 访问 控制 列表 。 

Unix 系统 将 ACL 压缩 成 9 个 比特 。 它 假定 只 有 三 种 用 户 : 拥有 者 、 拥 有 者 所 定义 的 
组 中 的 成 员 、 普 通 公共 用 户 。 它 为 每 种 类 型 的 用 户 定义 了 三 个 权限 比特 : 读 (r)、 写 (Cw), 
执行 (x)。 这 样 得 到 的 9 个 比特 代码 存储 于 对 象 的 目录 项 中 ， 而 不 是 在 一 个 单独 的 ACL 
文件 中 。 例 如 ，Ann 声明 她 不 能 执行 她 的 文件 “ abc”， 她 的 组 只 能 读 这 个 文件 ， 而 其 他 
的 普通 公共 用 户 可 以 读 和 执行 这 个 文件 ， 这 样 的 授权 会 以 访问 代码 ( rw-r--r-x) 的 形式 存 
储 于 文件 “abc” 的 目录 项 中 。 

表示 授权 的 另 一 种 常用 方式 是 使 用 能 力 列表 (例如 页 表 或 对 象 列表 ) 中 的 访问 码 。 当 
操作 系统 创建 一 个 主体 s 时， 同时 会 创建 它 的 能 力 列表 CL[s] 并 让 它 指向 所 有 s 可 以 访问 
的 对 象 。 这 样 ，Ann 对 文件 “abc” 的 读 权 限 会 在 CL[Ann] 中 存储 为 (read, abc). ACL 和 
CL 经 常 一 起 使 用 : 当 文件 载 人 地 址 空间 时 ， 能 力 列表 就 是 根据 ACL 中 的 授权 来 进行 初始 
化 的 。 

一 些 军用 或 政府 系统 会 给 每 个 用 户 标记 许可 (clearance)， 给 每 个 数字 对 象 标记 安全 
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标签 (诸如 未 分 类 、 机 密 或 顶级 机 密 之 类 )。 许 可 与 标签 之 间 的 关系 定义 了 额外 的 访问 限 
制 。 用 户 既 不 能 读 取 标 签 级 别 高 于 他 们 的 许可 级 别 的 对 象 ， 也 不 能 向 标签 级 别 低 于 他 们 的 
许可 级 别 的 对 象 写 人 数据 。 这 种 系统 根据 主体 所 允许 生成 的 信息 流 来 控制 对 象 的 读 写 访问 
(Bell & LaPadula 1976, Denning 1976 ) 。 

为 了 让 权限 管理 和 其 他 操作 变 得 更 容易 ， 多 数 系统 都 有 一 个 拥有 系统 中 所 有 对 象 的 
所 有 权限 的 “ root” 账 户 (超级 用 户 或 管理 员 )。 只 有 一 小 部 分 受信 任 的 管理 员 可 以 登录 
这 个 账户 。 对 于 大 部 分 系统 来 说 ，root 账户 的 存在 是 一 个 主要 的 安全 风险 。 基 于 能 力 的 寻 
址 方式 的 一 个 优势 就 是 不 需要 超级 用 户 的 存在 。 


层级 结构 中 的 定位 

定位 (positioning) 是 指 将 数据 放置 到 存储 器 层级 结构 或 者 网 络 节 点 的 不 同 层 上 ， 以 
保证 系统 具有 更 好 的 性 能 。 定 位 会 极 大 地 影响 系统 的 性 能 。 回 想 一 下 本 章 开 头 的 那个 例 
子 ， 由 于 存储 系统 传递 传 感 数据 到 CPU 的 速度 不 够 快 ， 我 们 所 设想 的 那 台 超级 计算 机 只 
能 以 CPU 额定 速度 的 1/11 来 运行 。 

代价 分 析 是 所 有 解决 定位 问题 的 方法 都 要 遵循 的 一 个 原则 。 如 果 某 个 数据 块 会 被 多 
次 使 用 到 ， 而 在 RAM 中 保留 这 块 数据 的 代价 比 从 二 级 磁盘 读 取 这 个 块 的 代价 要 小 ， 那 
么 我 们 就 选择 在 RAM 中 保留 这 个 块 。 这 个 情况 可 以 用 下 述 公 式 来 表示 。 令 RR 表示 数据 
块 重新 使 用 的 时 间 间 隔 ，23 表示 块 大 小 ，U 表示 RAM 中 每 个 字 节 每 分 钟 的 单位 花 销 ，D 
表示 从 磁盘 读 取 一 个 块 的 花 销 。 当 UBR<D, B24 R<D/UB 时 ， 在 重用 时 间 间 隔 内 一 直 保 
留 这 个 块 所 产生 的 花 销 会 更 小 。 使 用 1985 年 Tandem 计算 机 系统 的 花 销 和 块 大 小 ，Gray 
和 Putzolu 将 R 的 阔 值 设置 为 5 分 钟 。 换 句 话 说 ， 如 果 5 分 钟 内 某 个 数据 块 需 要 再 次 在 
RAM 中 用 到 ， 那 么 就 在 RAM 中 保留 它 ， 否 则 就 将 它 保存 在 磁盘 上 去 。 二 十 年 后 ， 同 样 
的 规则 被 用 于 硬盘 和 RAM 之 间 的 大 块 数据 ， 以 及 闪存 和 RAM 之 间 的 小 块 数据 的 管理 
(Graefe 2007 )。 

TS ER WR Re EE. WF PARR, SMD. UMB E 
EW, FETT A WBE AA TR T= D/V8。 所 以 在 刚刚 使 用 过 一 个 数据 块 
之 后 : 

1) 如 果 距 离 青 次 使 用 该 块 的 时 间 超 过 7， 则 马上 从 RAM 中 移 除 这 个 块 。 

2) 和 否则， 保留 这 个 块 直到 下 一 次 再 使 用 它 。 

在 下 一 次 使 用 之 前 ， 我 们 不 会 将 一 个 块 保留 一 部 分 时 间 之 后 再 移 除 出 去 ， 因 为 这 只 
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会 增加 这 段 时 间 内 RAM 的 花 销 ， 而 又 无 法 避免 从 磁盘 中 再 次 读 取 。 

这 个 规则 在 每 一 次 数据 使 用 之 后 都 适用 。 因 此 ， 如 果 重 用 某 个 块 的 时 间 点 在 阔 值 窗 
口内 ， 同 样 的 规则 仍 会 被 使 用 ， 即 使 该 块 已 经 被 载 人 。 因 为 这 个 规则 会 单独 作用 到 每 一 
个 被 用 到 的 块 ， 所 以 RAM 的 总 使 用 量 可 能 会 变化 。 如 果 有 很 多 块 在 了 时 间 内 会 被 重用 ， 
那么 RAM 的 分 配 会 增加 ， 而 如 果 被 重用 的 块 少 ， 那么 RAM 的 分 配 会 减少 。1976 年 ， 
Prieve 和 Fabry 定义 了 VMIN 策略 ， 正 是 用 上 面 这 个 决策 规则 来 解决 变量 空间 最 小 化 问 
题 ， 并 证 明 它 是 最 优 的 。 对 于 一 个 给 定 的 平均 RAM 分 配 量 ， 没 有 其 他 的 策略 可 以 使 得 块 
载 人 量 更 小 。 

这 个 原则 在 实践 中 应 用 起 来 并 不 容易 ， 因 为 数据 块 的 个 数 可 能 很 大 ， 而 它们 再 次 被 
使 用 的 时 间 是 随机 的 。 此 外 ， 关 于 是 否 应 该 保留 一 个 块 直到 它 被 再 次 使 用 ， 目 前 做 出 的 决 
策 是 不 准确 的 ， 因 为 我 们 并 不 能 预见 未 来 。 为 了 针对 再 次 使 用 的 时 间 产 生 一 些 有 用 的 预 
测 ， 我 们 需要 一 个 预测 程序 如 何 使 用 它 的 代码 和 数据 的 模型 。 

在 20 世纪 60 年 代 虚 拟 存储 被 提出 之 后 ， 针 对 存储 使 用 的 预测 模型 研究 也 开始 了 。 
虚拟 存储 非常 依赖 于 它 的 页 替换 策略 一 一 这 个 策略 决定 了 在 CPU 遇 到 缺 页 事件 时 ，RAM 
中 哪个 的 物理 页 将 被 蔡 换 出 去 。 不 同 的 替换 策略 反映 的 是 不 同 的 预测 模型 。 虚 拟 存储 的 性 
能 与 预测 模型 的 选择 息息相关 。 

1966 年 ，IBM 的 Les Belady 开展 了 一 项 具有 深远 影响 力 的 研究 ， 分 析 了 固定 尺寸 
RAM 上 的 替换 策略 的 性 能 。 他 得 出 结论 ， 最 近 最 少 使 用 ( Least Recently Used, LRU) 策 
略 总 是 比 其 他 策略 的 性 能 好 。 而 这 个 LRU 策略 每 次 都 选择 将 最 久 没 有 用 过 的 那个 页 替 
换 掉 。 作 为 参照 ， 他 定义 了 MIN 策略 即 最 少 缺 页 错误 准则 ， 该 准则 每 次 选择 将 来 再 次 
使 用 的 时 间 最 远 的 那个 页 。MIN 能 得 到 比 其 他 固定 划分 策略 都 要 少 的 页 错误 (Aho et al. 
1971 )。 不幸 的 是 ，MIN 无 法 真正 被 实现 ， 我 们 无 法 准确 知道 未 来 的 内 存 访问 行为 ， 对 此 
也 没有 一 个 非常 好 的 预测 模型 。LRU 策略 和 MIN 策略 之 间 还 有 相当 大 的 性 能 差距 ， 寻 找 
更 接近 MIN 策略 的 研究 仍 在 继续 。 

研究 人 员 使 用 引用 映射 表 (reference map) 来 帮助 他 们 记录 程序 在 运行 时 究竟 如 何 使 
用 存储 器 。 引 用 映射 表 是 一 个 按照 时 间 顺 序 排列 的 地 址 空间 样本 序列 ， 表 示 了 每 个 采样 时 
段 内 哪些 页 被 用 到 。 这 些 映 射 表 揭 示 出 一 些 惊 人 的 模式 ， 即 对 存储 器 的 引用 经 常会 集中 在 
一 个 小 区 域内 ， 并 持续 较 长 的 时 间 。 对 于 每 个 程序 来 说 ， 这 些 模式 是 各 不 相同 的 ， 就 像 声 
纹 一 样 ( 见 图 7.7 )。 引 用 映射 表 中 所 使 用 的 区 域 ， 代 表 了 最 大 化 系统 吞吐 量 的 时 间 - 空 
间 印 迹 ( 见 图 7.8 )。 
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图 7.7 这 是 一 个 Linux 系统 下 Firefox 网 页 浏览 器 的 页 引用 映射 表 。 横 轴 表 示 虚 拟 时 间 ， 通 过 存储 
器 的 引用 量 来 衡量 (每 个 像素 大 约 是 380K 次 引用 )， 纵 轴 代 表 虚 拟 页 地 址 。 较 暗 的 像素 表 
示 这 个 页 在 长 度 为 380K 次 引用 的 窗口 中 被 引用 了 。 了 映射 表 揭 示 了 程序 的 位 置 集合 ， 并 直观 
地 表明 这 些 位 置 集合 在 较 长 时 间 内 是 稳定 的 ， 尽 管 也 会 在 某 些 时 间 点 从 当前 位 置 集合 转 到 
其 他 位 置 集合 。 在 这 幅 图 中 ， 一 个 样本 区 间 中 的 位 置 集合 通常 持 有 30 至 60 个 样本 。 在 超 
过 97% 的 情况 下 ， 当 前 样本 区 间 中 包含 的 页 可 以 近乎 完美 地 预测 下 一 个 样本 区 间 中 包含 的 
页 。 这 些 引 人 注目 的 图 说 明了 每 个 程序 都 有 它们 特定 的 局 部 性 行为 。 程 序 使 用 代码 和 数据 
的 方式 并 不 是 随机 而 无 规律 可 循 的 


程序 对 存储 器 的 访问 常常 长 时 间 地 集中 在 地 址 空间 的 一 些 子 集中 ， 这 个 倾向 被 称 
为 局 部 性 原理 5。 如 图 7.7 所 示 ， 我 们 可 以 将 某 个 计算 程序 的 存储 访问 请 求 描述 
序列 
(i, Pi), Ua, Pa) S22 Wa, Pods * 
其 中 每 个 天 代表 一 个 位 置 集合 ， 即 地 址 空间 中 对 象 的 一 个 子 集 ， 每 个 Pi 代表 一 个 时 段 ， 


即位 置 集合 持续 的 时 间 。 如 果 已 知 位 置 集合 和 时 段 ， 我 们 就 可 以 让 每 个 位 置 集合 在 它 的 时 
段 内 保留 在 RAM 上， 从 而 解决 定位 问题 。 很 快 我 们 就 能 看 到 ， 这 个 做 法 是 非常 接近 最 优 
解 的 。 

工作 集 (working set) 是 一 种 用 来 跟踪 程序 的 局 部 存储 访问 行为 模式 如 何 变化 的 测 
量 工具 (Denning 1968a)。 工 作 集 标识 出 ， 在 刚 过 去 的 一 个 长 度 为 7 的 虚拟 时 间 窗 内 ， 
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址 空间 中 的 哪些 页 被 使 用 过 “。 我 们 希望 使 用 一 个 较 小 的 时 间 窗 ， 它 只 要 刚好 长 到 可 
以 对 目前 的 位 置 集合 中 所 有 的 存储 页 进行 采样 。 许 多 研究 (例如 图 7.7 所 示 ) 都 表明 ， 
个 合适 的 采样 窗口 通常 只 占 时 段 长 度 的 一 小 部 分 。 有 了 这 样 一 个 窗口 ， 工 作 集 就 变 
成 了 一 个 极 佳 的 预测 器 ， 可 用 来 预测 接 下 来 的 位 置 集合 ， 并 使 系统 性 能 接近 最 优 ( 见 
图 7.9 )。 
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图 7.8 性 能 分 析 员 从 时 间 — 空间 角度 评测 存储 器 的 使 用 情况 ， 即 查看 程序 随 着 时 间 的 变化 使 用 存 
储 器 的 页 数 - 秒 数 曲 线 。 这 里 我 们 可 以 看 到 一 个 大 小 为 M 的 存储 器 在 天 秒 内 的 变化 。6 个 
区 域 表 示 了 6 个 程序 使 用 存储 器 的 时 空 情 况 。 在 时 间 a， 程 序 1、2 和 3 在 存储 器 中 ; 在 时 
间 b, FEF 4 和 5 在 存储 器 中 。 存 储 器 的 时 空 开销 与 系统 的 吞吐 量 有 关 ， 即 那个 重要 的 定理 
M = XY， 其 中 对 是 每 秒 内 程序 完成 的 吞吐 量 ,， 了 是 程序 的 平均 时 空 开销 ( Buzen 1976 )。 在 
这 里 吞吐 量 是 和 = 6 / T7， 因 为 有 6 个 程序 被 执行 完 ， 平均 时 空 开销 就 是 总 的 可 用 时 空 开 销 
MK 的 六 分 之 一 。 理 想 情 况 下 ， 如 果 每 个 程序 的 引用 映射 表 足 够 小 的 话 ， 程 序数 量 的 最 大 值 
就 会 占据 整个 可 用 的 大 小 为 MK 的 时 空 ， 从 而 最 大 化 吞吐 量 

当 我 们 把 局 部 性 原理 应 用 于 多 任务 编程 时 ， 这 种 原理 告诉 我 们 对 每 个 程序 来 说 最 
理想 的 RAM 分 配 就 是 它 当 前 的 工作 集 。 只 有 当 一 个 程序 的 工作 集 可 以 被 全 部 装载 到 
RAM 中 空闲 的 区 域 时 ， 程 序 才 应 该 启动 。 遵 循 这 个 原则 的 虚拟 存储 系统 不 会 发 生 抖 动 
(thrash) 7. 

当 把 局 部 性 原理 应 用 于 CPU 缓存 时 ， 它 告诉 我 们 要 根据 LRU 原则 来 替换 缓存 项 。 
这 是 因为 最 近 最 少 使 用 的 页 很 可 能 是 属于 过 去 的 局 部 位 置 集 ， 它 在 后 续 运行 中 不 再 那么 相 
关 。 这 样 的 话 ， 缓 存 中 就 保存 了 那些 最 可 能 在 接 下 来 会 被 使 用 到 的 页 ， 从 而 模拟 了 MIN 
策略 。 

当 我 们 把 局 部 性 原理 应 用 于 互联 网 时 ， 它 告诉 我 们 要 将 网 页 的 副本 存放 到 靠近 用 户 
簇 的 “边缘 缓存 ” ee ea ee ee 
为 ， 而 边缘 缓存 将 局 部 页 定位 到 靠近 它们 被 处 理 的 地 方 。 在 互联 网 中 ， 一 些 热门 网 站 可 能 
会 积压 一 个 很 长 的 请 求 队列 ， 这 会 阻碍 网 站 的 服务 从 而 导致 长 时 间 的 延迟 ; 而 缓存 可 以 打 
破 这 种 集中 式 服务 器 的 长 队列 。Akamai Technologies 尤其 擅长 解决 这 方面 问题 .他们 的 
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边缘 缓存 为 30% 的 互联 网 传输 流量 提供 服务 。 他 们 的 算法 会 评估 请 求 从 哪里 来 ， 并 计算 
出 放置 缓存 的 最 佳 位 置 。 就 像 在 个 人 计算 机 中 一 样 ， 互 联网 中 的 局 部 性 是 可 以 预测 的 ， 而 
局 部 性 模型 可 以 显著 地 提升 性 能 。 


大 小 


时 间 





T: 


图 7.9 当 存 储 器 分 配 随 着 位 置 集合 变化 时 ，Belady 的 MIN 并 不 是 最 优 的 ，VMIN 才 是 (Prieve & 
Fabry 1976 ) 。 对 于 一 个 给 定 的 7T，VMIN 直接 查看 此 页 的 下 一 次 引用 ; 如 果 这 个 页 会 在 时 
间 了 内 再 次 用 到 ， 那 么 VMIN 就 在 整个 区 间 内 在 RAM 中 保留 它 直 到 它 被 再 次 用 到 ; 否则 
VMIN 就 马上 删除 它 ， 等 到 页 错误 发 生 之 后 再 载 人 。 参 数 了 的 选取 需要 折衷 考 虑 保留 一 个 
页 的 开销 和 再 次 载 人 它 的 花 销 。 当 了 小 于 片段 长 度 时 ，VMIN 和 WS (Working Set) 都 可 以 
看 到 并 保留 位 置 集合 。 它 们 之 间 的 唯一 区 别 发 生 在 片段 转移 时 。 本 图 给 出 了 从 一 个 小 的 位 
置 集合 (大 小 为 5) 到 一 个 大 的 (大 小 为 c) 且 有 部 分 重合 (KDA a) 位 置 集合 的 转移 。 当 
这 个 转移 开始 的 时 候 ( 带 圈 的 “x”)，WS 在 旧 的 页 的 基础 上 累积 了 新 的 位 置 页 ; 在 7 时 间 
后 进入 新 的 片段 ，WS 就 只 能 看 到 新 的 位 置 页 了 。VMIN 通过 在 上 一 次 使 用 后 就 马上 移 除 页 
来 预测 转移 。 在 转移 发 生 之 后 的 了 个 单位 时 间 内 ，WS 和 VMIN 之 间 相 差 了 4b - a 页 ， 直 到 
时 间 窗 口 了 结束 ，WS 衰减 到 和 VMIN 一 样 。 因 此 ， 如 果 旧 的 片段 持续 已， 那么 时 空 的 相 
对 差 值 最 多 是 (b -a)TbP, /\F TIP, WI, WE 7.7 所 示 ， 如 果 了 是 片段 长 度 的 3%，WS 
距离 最 优 方 解 的 偏差 不 超过 3% 


为 什么 局 部 性 是 基础 

许多 实践 经 验 表 明 ， 局 部 性 是 所 有 计算 的 一 个 基础 特性 。 通 过 引用 映射 表 可 以 观察 
到 大 量 的 程序 行为 都 表现 出 位 置 - 时 间 的 局 部 模式 ， 并 证 实 了 使 用 较 小 时 间 窗 内 的 工作 
集 ， 能 准确 地 观察 到 局 部 位 置 集合 。 此 外 ，CPU 缓存 的 全 面 成 功 以 及 互联 网 中 的 边缘 缓 
存 ， 也 是 对 局 部 性 的 强 有 力 验证 。 

局 部 性 行为 是 否 会 是 由 于 编译 器 优化 而 导致 的 一 种 人 为 结果 呢 ? 例如 ， 是 否 有 可 
能 是 由 于 编译 器 的 策略 ， 使 得 相互 引用 的 代码 块 和 数据 聚集 在 了 一 起 ， 从 而 造成 了 这 
样 的 行为 ?” Madison 和 Batson (1976) 证 明了 ， 局 部 性 行为 在 程序 的 源 代 码 中 就 已 经 


存在 了 。 因 此 ， 局 部 性 的 行为 模式 看 来 是 由 人 类 解决 问题 的 方式 本 身 带 来 的 。 例 如 ， 
很 常见 的 分 治 策略 就 确保 了 算法 会 将 引用 聚 成 更 小 的 代码 和 数据 子 集 ， 以 解决 下 一 个 
阶段 的 问题 。 使 用 线性 数组 、 字 符 串 或 者 向 量 的 算法 ,通过 循环 来 访问 这 些 对 象 ， 从 
而 形成 了 局 部 性 的 行为 。 优 秀 的 编译 优化 算法 则 会 保留 局 部 性 ， 使 得 存储 系统 能 高 效 
地 进行 操作 ; 相反 地 ， 糟 糕 的 优化 算法 可 能 破坏 局 部 性 ， 使 得 存储 系统 的 使 用 变 得 很 
低 效 。 

局 部 性 原理 事实 上 可 能 具有 比 上 述 讨 论 还 要 更 深远 的 影响 。2010 年 ，Yuri Gurevich 
发 表 了 一 篇 报告 来 试图 回答 “算法 是 什么 ” 。 他 将 算法 公式 化 地 定义 为 对 一 个 可 以 在 数据 
上 执行 操作 的 智能 体 的 控制 。 在 对 于 该 智能 体 所 允许 的 操作 的 要 求 中 ， 一 个 要 求 是 边界 原 
则 : 一 个 操作 只 能 改变 数据 结构 中 的 一 个 有 限 的 、 带 边界 的 区 域 。 换 名 话说， 一 个 计算 方 
法 必须 要 服从 局 部 性 原理 ， 才 能 被 看 作 一 个 算法 。 


结论 


与 处 理 一 样 ， 存 储 是 计算 的 基础 。 在 存储 系统 中 ， 代 码 和 数据 都 是 层级 化 存储 的 ， 
高 速 设备 的 容量 相对 较 小 ， 而 低速 设备 的 容量 相对 较 大 。 高 速 设备 允许 实现 高 速 计算 ， 低 
速 设备 允许 存储 大 型 数据 集 并 永久 存储 。 由 这 些 存 储 系统 构成 的 庞大 网 络 在 互联 网 中 是 相 
互 连 通 的 。 

存储 系统 的 可 用 性 取决 于 四 类 问题 的 解决 办 法 : 命名 、 映 射 、 认 证 和 定位 。 命 名 是 指 
分 配 字 母 数字 或 比特 位 串 来 标识 对 象 。 映 射 是 指 将 一 个 名 字 和 一 个 保存 了 该 对 象 的 存储 位 
置 关 联 起 来 。 认 证 是 指 确认 发 出 请 求 的 主体 是 否 具 有 在 对 象 上 执行 所 请 求 的 操作 的 权限 。 
定位 是 指 将 数据 存放 到 层级 存储 结构 或 互联 网 中 的 某 个 位 置 ， 从 而 优化 性 能 。 

存储 一 共有 六 种 主要 的 访问 模式 一 一 地 址 、 地 址 对 句柄、 路 径 名 、 查 询 和 文本 搜 
索 。 每 一 种 都 有 特定 的 目的 ， 这 些 模式 在 大 多 数 计算 系统 或 互联 网 上 都 存在 。 实 现 这 些 模 
式 的 系统 可 能 相当 复杂 。 

定位 是 基于 下 面 这 样 一 种 原理 : 如 果 在 再 次 使 用 之 前 保留 一 个 数据 对 象 的 开销 要 低 
于 之 后 从 另 一 个 位 置 重新 读 取 它 的 开销 ， 那 就 应 该 将 它 保留 在 原 处 。 在 许多 系统 中 ， 最 典 
型 的 例如 虚拟 存储 ， 定 位 决策 是 由 这 些 开 销 的 比例 来 决定 的 。 局 部 性 原理 一 一 计算 时 的 引 
用 会 聚集 在 地 址 空间 中 的 较 小 子 集中 一 一 发 展 成 为 一 个 被 完善 证 明 的 理论 ， 用 于 预测 哪个 
对 象 最 有 可 能 在 接 下 来 会 被 使 用 。 预 测 所 给 出 的 位 置 ， 应 当 被 放置 到 离 操作 点 近 的 地 方 。 
局 部 性 理论 促进 了 存储 系统 的 设计 和 性 能 优化 。 
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近年 来 有 人 作出 预测 ， 虚 拟 地址 技术 终 将 消失 ， 因 为 随 着 RAM 技术 的 不 断 进步 ， 大 

部 分 的 程序 将 不 再 需要 分 页 。 一 个 没有 分 页 而 更 简单 的 操作 系统 ， 将 给 所 有 人 提供 他 们 所 

需要 的 所 有 RAM， 但 这 种 愿望 恐怕 不 太 可 能 会 真 的 发 生 。 虚 拟 地 址 技术 仍然 会 存在 ， 因 

为 它们 解决 了 共享 、 命 名 、 认 证 和 防止 程序 相互 干扰 等 一 系列 重要 问题 。 即 便 它们 的 数据 

定位 策略 不 被 使 用 ， 它 们 也 仍 是 不 可 或 缺 的 。 此 外 ， 我 们 想 要 运行 的 很 多 算法 都 涉及 处 理 

“大 数据 ”一 一 这 意味 着 数据 的 规模 超出 了 我 们 目前 的 存储 系统 的 容量 一 一 RAM 永远 都 是 
不 够 用 的 。 


| 第 8 章 


Great Principles of Computing 


并 行 





我 们 把 整个 系统 组 织 成 一 个 由 若干 顺序 过 程 组 成 的 社会 ， 它 们 之 间 的 和 谐 协作 由 显 
式 的 相互 同步 声明 来 控制 。 
—Edsger W. Dijkstra 
商业 化 多 核 芯片 的 普遍 使 用 正 迫 使 计算 思维 并 行 化 。 
一 一 Walter Tichy 
合 众 为 一 。 
一 一 美国 国家 格言 


当 我 们 想起 计算 时 ， 通 常 想 到 的 是 控制 单个 CPU 执行 一 个 指令 序列 的 单一 进程 。 我 
们 对 于 算法 的 很 多 定义 都 强调 一 步 一 步 地 进行 一 一 每 次 只 做 一 件 事情 。 

但 是 在 现实 生活 中 ， 我 们 会 同时 做 很 多 事 ， 并 与 很 多 人 交互 ， 大 家 都 在 同时 做 很 多 
事 。 在 日 常 行为 中 ， 在 移动 和 桌面 的 操作 系统 中 ， 我 们 都 能 看 到 这 样 的 情况 。 我 们 在 互联 
网 上 蜂拥 发 起 的 信息 处 理 过 程 中 可 能 会 有 一 些 顺序 执行 的 成 分 ， 但 其 中 大 量 存在 的 还 是 多 
个 个 体 并 发 运行 的 情形 。 顺 序 的 过 程 已 经 无 法 充分 地 描述 现代 的 计算 世界 。 这 是 一 个 由 很 
多 独立 自主 的 个 体 组 成 的 纷乱 世界 ， 每 一 个 个 体 都 试图 既 达 成 个 体 目标 ， 又 实现 共同 目标 。 

我 们 该 如 何 描述 和 管理 这 样 的 计算 ? 

我 们 将 在 “并 行 计算 ”( parallel computation) 这 一 标题 下 进行 讨论 ， 这 个 术语 通常 指 
计算 是 由 多 个 并 发 个 体 协 同 完成 的 。 该 术语 隐 含 地 表明 了 “ 串 行 计 算 ”(serial computation) 
是 它 的 一 个 特例 ， 可 以 作为 并 行 系统 的 基本 构成 单元 。 然 而 ， 还 是 有 很 多 计算 ， 即 便 在 很 
细 的 粒度 ， 也 很 难 辨别 出 其 中 的 顺序 成 分 。 

并 行 计 算 的 设计 师 主 要 处 理 两 大 类 现象 : 

1) 协作 并 行 : 多 个 进程 (自主 计算 个 体 ) 相互 同步 完成 一 个 共同 的 目标 。 例 如 ， 拥 
有 10 000 个 处 理 器 的 超级 计算 机 开始 一 项 由 10 000 个 进程 组 成 的 天 气 预报 计算 ， 每 个 进 
程 运 行 在 一 个 处 理 器 上 ， 能 够 以 比 单个 处 理 器 快 10 000 倍 的 速度 完成 整个 计算 。 

2) 竞争 并 行 : 多 个 进程 ， 它 们 之 间 很 少 或 没有 相互 同步 关系 ， 同 时 利用 一 个 网 络 的 
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有 限 资源 来 实现 各 自 的 目标 。 多 个 进程 请 求 同 一 资源 时 将 按 序 排 成 队列 ， 具 有 长 队列 的 资 
源 就 成 为 限制 单个 进程 响应 速度 的 瓶颈 。 例 如 ,在 紧急 情况 下 ， 手 机 网 络 可 能 不 堪 重 负 ， 
用 户 将 经 历 长 时 间 的 等 待 才能 拨 出 电话 。 

这 两 种 类 别 并 不 是 相互 独立 的 。 例 如 ， 一 些 超 级 计算 机 操作 系统 允许 多 个 进程 竞争 
少 于 进程 数 的 处 理 侣 。 通 过 将 每 个 查询 划分 为 数 千 个 子 查询 分 发 到 数 千 个 处 理 器 上 ， 谷 歌 
避免 了 其 服务 器 上 每 天 上 十 亿 查 询 负载 所 产生 的 瓶颈 ， 这 些 处 理 器 协同 工作 使 得 每 个 查询 
在 0.5 秒 的 时 间 内 就 可 得 到 响应 。 

本 章 我 们 讨论 协作 并 行 ， 而 在 下 一 章 排 队 (queueing) 中 ， 我 们 将 讨论 竞争 并 行 。 


并 行 计算 的 早期 方向 

20 世纪 40 年 代 ， 计 算 机 工程 师 主 要 关注 带 串 行 处 理 器 的 计算 机 ， 这 种 处 理 器 按 顺 序 
每 次 执行 一 条 指令 。 他 们 认为 这 是 实现 可 靠 计算 机 的 最 佳 路 径 。 那 个 年 代 ， 对 于 这 样 一 个 
新 兴 技 术 来 说 ， 并 行 计算 机 和 并 行 算法 实在 是 太 过 复杂 了 。 

即便 是 这 样 ， 很 多 计算 机 工程 师 仍 然 一 直 在 思考 并 行 的 可 能 性 。 实 现 CPU 的 电路 中 
包含 了 许多 传输 信号 的 并 行 通路 。 工 程 师 知道 竞 态 条 件 (race condition) 是 影响 可 靠 性 的 
主要 因素 。 当 多 个 输入 信号 在 并 行 通路 中 传输 ， 且 输出 的 值 取决 于 各 并 行 通路 的 速度 时 ， 
就 出 现 了 竞 态 条 件 。 例 如 ,设计 者 计划 使 输出 值 保持 为 常量 “1”, 但 如 果 较 快 的 信号 先 
于 较 慢 的 信号 到 达 输 出 ， 该 输出 值 可 能 会 产生 短暂 波动 变 为 “0”。 这 种 波动 可 能 导致 准 
备 接收 该 输出 值 的 下 游 电 路 出 现 故障 。Maurice Karnaugh ( 1953 ) 示范 了 一 种 逻辑 电路 设 
计 技 术 ， 可 以 避免 由 竞争 信号 导致 的 波动 。 遗 憾 的 是 ，Karnaugh 的 方法 无 法 很 好 地 扩展 
到 超大 规模 电路 中 。 

硬件 工程 师 往 往 在 大 规模 电路 中 内 置 时 钟 以 保持 其 稳定 性 。 他 们 把 机 器 构造 成 一 个 
拥有 一 组 1 位 触发 器 作为 反馈 的 逻辑 电路 〈 如 图 8.1 所 示 )。 在 一 个 时 钟 节拍 脉冲 中 ， 逻 
辑 电路 的 输出 被 写 入 触发 器 组 中 。 时 钟 节拍 之 间 的 间隔 时 间 比 通过 逻辑 电路 最 慢 路 径 的 延 
WBE, ， 这 样 用 户 就 不 再 会 观察 到 由 逻辑 电路 内 部 的 竞争 引起 的 波动 。 

遗憾 的 是 ， 时 钟 电路 难以 扩展 。 在 3GHz 时 钟 的 节拍 内 ， 光 可 以 传播 4 英寸 ?， 意味 
着 信号 有 足够 的 时 间 遍 历 一 个 典型 的 3cm 的 芯片 。 而 对 一 个 电路 板 尺 寸 为 1 英尺 = 的 电路 
来 说 ， 我 们 则 需要 把 时 钟 频率 降 到 1GHz 或 更 小 。 


© 1 英寸 =0.0254 米 。 
© 1 英尺 =0.3048 米 。 
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图 8.1 CPU 中 的 逻辑 电路 与 一 组 1 位 触发 器 (x, om, ..., x) 相连 ， 触 发 器 的 信号 表示 电路 的 最 
新 状态 ( 左 图 )。 每 来 一 个 时 钟 脉冲 ， 触 发 器 就 被 置 为 该 电路 输出 的 当前 值 。 触 发 器 的 新 值 
又 传输 到 该 电路 作为 输入 ， 进 而 产生 一 组 新 的 输出 。 然 而 ， 当 新 的 信号 在 电路 中 传输 时 ， 
输出 可 能 暂时 改变 。 为 了 避免 错误 的 输出 被 触发 器 读 到 ， 时 钟 节拍 间隔 被 设置 成 比 电 路 稳 
定时 间 长 一 些 。 右 图 所 示 的 逻辑 电路 有 一 个 或 门 (1) 连接 到 两 个 与 门 (2、3 )， 之 后 再 连 
接 到 另 一 个 与 门 (4)。 从 门 1 到 门 2 的 输入 要 经 过 非 门 ， 表 示 从 门 1 出 来 的 信号 要 取 反 。 
如 果 该 电路 的 状态 abcd = 1001 或 1011; 则 输出 x = 0。 然 而 ， 当 c 从 0 变 成 1 时， 若 通 过 
门 2 的 传播 比 门 3 慢 ， 则 因为 两 个 门 之 间 的 时 间 差 别 ， 将 导致 瞬时 的 x= 1 
很 多 电路 设计 者 试图 通过 建造 模块 化 的 电路 来 缓解 这 种 信号 传播 问题 ， 时 钟 仅 应 用 
于 各 个 模块 内 ， 在 模块 之 间 采 用 异步 信号 传输 (不 采用 时 钟 同步 )。 例 如 ，CPU 盒 和 磁盘 
控制 器 盒 内 可 以 有 各 自 的 内 部 时 钟 ， 并 采用 就 绪 - 确认 (ready-acknowledge) 协议 来 交换 
请 求 和 数据 。 在 就 绪 - 确认 协议 中 ， 发 送 方 把 要 发 送 的 数据 放 到 缓冲 区 ， 然 后 向 接收 方 
发 送 一 个 就 绪 信 号 ; 当 接 收 方 收 到 数据 之 后 ， 向 发 送 方 返回 一 个 确认 信号。 这 个 协议 可 以 
以 任意 长 度 的 周期 在 发 送 方 和 接收 方 之 间 工 作 。Ivan Sutherland ( 2012 )， 异 步 电 路 最 初 
的 倡导 者 之 一 ， 在 2012 年 指出 ， 如 果 和 希望 继续 扩大 电路 的 规模 并 降低 能 耗 ， 那 么 我 们 比 
以 往 任何 时 候 都 更 需要 把 时 钟 从 电路 中 去 掉 。 
很 多 设计 者 期 待 利 用 并 行 这 种 更 积极 的 方式 来 加 速 计算 ， 而 不 是 依赖 加 快 时 钟 。 如 
果 一 个 待 解 的 问题 能 被 分 解 为 多 个 较 小 的 、 独 立 的 任务 ， 每 个 任务 都 能 运行 在 一 个 不 同 的 
处 理 器 上 ， 那 么 个 处 理 器 只 需 花费 单个 处 理 器 所 需 时 间 的 LN 就 能 完成 所 有 工作 。 大 
规模 并 行 的 超级 计算 机 已 利用 这 一 原理 推进 到 了 一 个 巨大 的 N 值 ， 有 些 超级 计算 机 甚至 
可 以 达到 百 万 个 处 理 器 ( 见 图 8.2 )。 
遗憾 的 是 ， 很 少 有 问题 可 以 分 解 为 完全 独立 的 多 个 部 分 。 我 们 来 看 这 样 一 个 例子 : 一 
个 高 度 简 化 的 天 气 预 报 算法 ， 它 用 一 个 二 维 网 格 表 示 整 个 国家 。 计 算 时 ， 每 一 个 网 格 单元 
记录 自己 的 气压 、 风 向 和 风速 。 每 一 个 网 格 单元 与 相 邻 的 四 个 单元 一 一 记 为 东 、 南 、 西 、 
北 一 一 相互 作用 ， 四 个 相 邻 单元 的 值 对 其 产生 影响 ， 形 成 该 单元 新 的 气压 、 风 向 和 风速 
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图 8.2 美国 Argonne 国家 实验 室 的 Blue Gene/P 超级 计算 机 拥有 超过 250 000 个 处 理 器 ， 这 些 处 
理 器 通过 高 速 光纤 网 络 相 连 ， 部 署 在 72 个 机 架 中 。 这 是 典型 的 现代 “集群 ”( cluster) 计 
算 机 ， 通 过 大 规模 并 行 处 理 达到 极 高 的 计算 速度 。 另 一 种 常见 的 超级 计算 机 的 结构 是 “网 
格 ”(grid)， 这 里 ， 互 联网 上 成 千 上 万 的 计算 机 被 动员 起 来 ， 利 用 其 空闲 时 间 完 成 大 型 计算 
任务 中 的 各 个 片段 。2013 年 的 最 快 计算 的 世界 记录 是 由 美国 橡树 岭 国 家 实验 室 (Oak Ridge 
National Laboratory) 的 克 雷 泰坦 超级 计算 机 拥有 ， 它 每 秒 钟 可 完成 18 x 102 次 浮 点 计算 
(18 petaflops， 即 每 秒 18 千 万 亿 次 浮 点 计算 )。Michael Flynn (1972) 将 这 种 体系 结构 描述 
为 MIMD ( Multiple Instruction Multiple Data， 多 指令 流 多 数据 流 )， 并 预言 这 种 结构 能 够 达 
到 最 快 的 速度 


值 。 只 考虑 气压 计算 : 令 上 表示 计算 中 的 一 个 时 间 步 长 ，P(D 表示 时 间 步 长 1 内 一 个 单元 
的 气压 。 某 个 单元 新 的 气压 值 可 以 通过 计算 前 一 个 时 间 步 长 内 其 四 个 相 邻 单元 气压 的 平均 
值 获得 “: 


P(t) = [P w (t1) + Px (t1) 十 已 南 (大 1) + Piw(t-1)] /4 

时 间 步 长 之 间 人 允许 的 时 钟 时 间 是 : 网 络 传送 四 个 相 邻 值 的 时 间 ， 加 上 该 单元 计算 四 
个 值 之 和 并 除 以 4 以 及 存储 结果 的 时 间 。 因 为 所 有 的 通信 都 是 在 本 地 进行 ， 因 此 在 同一 个 
时 钟 时 间 内 ， 这 种 计算 方式 可 以 扩展 到 大 量 的 单元 。 

我 们 用 一 个 由 六 个 处 理 器 组 成 的 机 器 ， 每 个 单元 都 有 一 个 单独 的 处 理 器 ,来 计算 所 
有 时 间 步 长 1= 1，2，3，… 内 的 气压 分 布 图 ， 其 计算 速度 可 以 加 快 W 倍 。 通 过 时 间 的 不 
断 演化 ， 我 们 就 可 以 预测 未 来 的 气压 值 。 

为 单 处 理 器 计算 机 编制 的 普通 程序 会 是 什么 情况 呢 ? 在 具 及 个 处 理 右 的 机 器 中 它 
们 能 和 否 被 加 速 Y 倍 ? 是 否 有 可 能 打造 并 行 化 编译 器 ， 将 普通 程序 翻译 为 能 够 在 多 处 理 器 
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计算 机 运行 的 并 行程 序 ， 而 无 需 再 培训 程序 员 ? 20 世纪 60 年 代 ，IBM 的 一 位 计算 机 架 
构 师 吉 恩 . 阿 姆 达 尔 (Gene Amdahl)， 想 知道 并 行 化 编译 器 能 做 到 什么 程度 ， 他 给 出 了 
一 个 公式 用 来 计算 这 种 加 速 比 ， 这 就 是 现在 我 们 所 熟知 的 阿 姆 达尔 定律 (Amdahl's law), 
假设 一 个 程序 中 可 并 行 部 分 的 比例 为 P， 并 且 这 部 分 能 够 达到 N 倍加 速 ， 则 并 行 化 后 的 [53 
程序 的 运行 时 间 是 之 前 的 (1 - P) + P/N 倍 。 例如， 如 果 一 个 程序 中 有 10% 的 部 分 可 并 
行 化 ， 现 有 10 个 处 理 器 可 用 ， 则 该 程序 并 行 化 后 的 运行 时 间 是 单个 处 理 器 上 运行 时 间 的 
91%。 阿 姆 达尔 认为 很 多 常见 的 程序 由 于 包含 过 多 的 串 行 依 赖 ， 因 而 无 法 从 并 行 处 理 器 中 
得 到 太 多 的 好 处 。 

由 于 摩尔 定律 (Moore’s law) 持续 起 作用 ， 芯 片 的 处 理 速度 大 约 每 18 个 月 翻 一 番 ， 
因而 并 没有 人 抱怨 计算 的 速度 。 然 而 ，2000 年 左右 ， 芯 片 制 造 商 开始 遭遇 如 前 所 述 的 扩 
大 时 钟 控制 芯片 规模 的 困难 。 他 们 转向 并 行 处 理 以 保持 摩尔 定律 所 承诺 的 翻番 速度 。 他 们 
将 两 个 并 行 的 CPU ( 称 为 “ 核 ” ) 放 在 同一 个 芯片 上 并 保持 原 有 的 时 钟 频率 ， 而 不 是 通过 
缩减 特征 尺寸 和 时 钟 频率 加 倍 来 使 得 芯片 的 处 理 速 度 翻番 。 之 后 十 年 内 ，16 核 的 芯片 已 
经 可 常规 应 用 。 但 是 这 里 有 一 个 问题 ， 开 发 应 用 软件 的 程序 员 必 须 学 习 如 何 为 这 种 新 的 芯 
片 编写 并 行程 序 。 他 们 可 以 利用 什么 原理 来 做 好 此 事 呢 ? 

自从 20 世纪 60 年 代 以 来 ， 操 作 系 统 设 计 师 已 经 积累 了 大 量 的 构建 有 效 并 行 系统 的 
知识 。 操 作 系统 实现 了 应 用 程序 的 并 发 进程 ， 并 按照 进程 在 “就 绪 列 表 ” 中 的 等 待 顺序 将 
各 并 发 进程 分 派 到 各 CPU 上 执行 。 操 作 系 统 非常 擅长 在 有 限 的 资源 集中 并 行 运行 多 个 用 
户 进 程 。 

很 多 关于 串 行 算法 设计 和 调试 的 直觉 在 并 行 编程 中 完全 失效 了 。 并 行 编程 极 可 能 带 
来 竞 态 条 件 以 及 时 序 依赖 的 间歇 性 错误 ， 同 时 ， 当 进程 交换 信和 号 或 因为 死 锁 造 成 混乱 时 ， 
也 会 带 来 一 系列 同步 问题 。 计 算 思维 不 得 不 从 串 行 计算 转向 并 行 计 算 。 


并 行 系统 的 模型 

从 20 世纪 50 年 代 到 70 年 代 ， 虽 然 业 界 没有 给 并 行程 序 设计 太 多 空间 ， 但 一 些 研 究 
人 员 仍 积极 开展 研究 ， 并 不 断 丰 富 并 行 相关 的 理论 知识 。 他 们 学 会 了 如 何 构造 可 靠 的 异步 
电路 、 交 换 信号 和 消息 、 消 除 竞 态 条 件 、 避 免 死 锁 以 及 防止 时 序 依赖 错误 。 他 们 设计 了 可 
以 显 式 表示 一 个 问题 中 自然 存在 的 并 行 性 的 程序 设计 语言 ， 从 而 使 得 编译 器 输出 的 大 部 分 
代码 可 以 在 多 处 理 器 计算 机 中 显著 受益 。 但 遗憾 的 是 ， 在 20 世纪 80 年 代 和 90 年 代 ， 因 
为 业界 对 并 行 计算 并 不 感 兴趣 ， 很 多 理论 都 沉寂 了 。2000 年 前 后 ， 随 着 多 核 芯片 的 出 现 ， [154] 
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情况 发 生 了 变化 : 旧 的 原理 在 程序 员 中 重新 流行 ， 它 们 具体 体现 在 几 个 基本 的 模型 中 。 
协作 的 顺序 进程 


这 种 模型 通常 用 于 操作 系统 的 组 织 。 一 个 并 行 系统 由 一 组 以 未 知 速度 并 发 运行 的 顺 
序 进程 组 成 。 进 程 也 称 为 线程 ， 是 在 单一 地 址 空间 中 执行 一 个 程序 时 所 产生 的 CPU 状态 
序列 。 一 个 进程 可 以 生出 新 的 进程 (“ 子 进程 ”)， 进 程 之 间 通 过 交换 信号 和 消息 进行 协作 。 

一 个 计算 包含 运行 在 共享 地 址 空间 的 一 个 或 多 个 进程 。 计 算 可 以 是 终结 的 或 非 终 结 
的 。 终 结 计算 (terminating computation) 是 指 计算 内 的 所 有 进程 都 会 结束 ， 其 输出 就 是 留 
在 共享 内 存 中 的 值 。 非 终结 计算 (nonterminating computation) 是 指 其 中 至 少 有 部 分 进程 
在 循环 执行 ， 其 输出 是 一 些 指定 进程 所 产生 的 值 序列 。 

进程 之 间 的 通信 (无 论 是 在 同一 个 计算 内 还 是 不 同 的 计算 之 间 ) 是 由 显 式 的 信和 号 完成 
的 ， 数 据 不 会 通过 隐 式 通道 交换 。 隐 式 通信 (如 在 共享 内 存 中 留 下 数据 ) 通常 是 错误 的 一 
大 来 源 。 程 序 员 必须 明确 协作 需求 ， 并 使 用 同步 协议 对 它们 进行 显 式 的 处 理 。 典 型 的 协作 
需求 包括 以 下 几 种 : 

1) 竞 态 条 件 。 内 存单 元 的 值 取决 于 并 发 进程 向 该 单元 写 数 据 的 顺序 。 

2) 互 斥 。 不 同 的 进程 不 能 同时 执行 临界 区 的 代码 。 

3) 串 行 化 。 代 码 段 作为 一 个 单元 执行 ， 不 能 与 那些 可 能 与 其 竞争 的 并 发 代码 段 交 叉 
存 取 。 

4) 同步 。 直 到 接收 到 另 一 个 进程 的 信号 ， 进 程 才 能 越过 指定 点 继续 执行 。 

5) 集合 点 。 一 组 进程 在 指定 点 等 待 ， 直 到 组 内 所 有 成 员 都 到 达 这 个 点 ， 然 后 继续 
运行 。 

6) 消息 传递 。 进 程 之 间 相 互 发 送 消息 。 

7) 死 锁 预防 或 避免 。 进 程 一 定 不 能 进入 循环 等 待 。 循 环 等 待 指 同 组 两 个 进程 都 暂停 
等 待 来 自 对 方 的 信号 。 

8) 仲裁 。 当 两 个 信号 几乎 同时 发 生 时 ， 选 取 其 中 之 一 作为 第 一 信号 ， 另 一 个 则 作为 
第 二 信号 ， 这 样 就 不 会 丢失 任何 一 个 信和 号。 


功能 系统 


在 这 种 模型 中 ， 并 行 系统 包含 一 个 共享 内 存 的 偏 序 任务 集 。 每 一 个 任务 完成 一 个 功 
能 ， 将 输入 内 存单 元 的 值 变换 为 输出 内 存单 元 的 值 。 一 个 任务 在 其 “初始 化 ”到 “完成 ” 
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的 时 间 间 隔 内 执行 。 任 务 在 初始 化 〈 也 称 为 “发 射 ” ) 之 后 ， 可 以 读 取 输 入 并 按照 内 部 功 
能 将 其 输出 写 和 内存。 当 任务 完成 后 ， 它 就 向 偏 序 集中 所 有 显 式 标记 为 其 后 继 的 任务 发 送 
已 完成 信号 。 一 个 任务 只 有 当 其 接收 到 它 的 所 有 前 驱 任 务 发 送 的 完成 信号 后 才能 初始 化 。 
这 一 模型 有 很 多 变 体 ， 包 括 Petri 网 、 并 行程 序 模式 ( Parallel Program Schemata) 及 数据 
流 图 (Dataflow Graphs)。 诸 如 APL. VAL 等 编程 语言 就 是 用 来 表示 这 种 模型 中 的 并 行 
计算 。 








事件 驱动 的 系统 


事件 驱动 的 系统 是 一 组 进程 的 集合 ， 当 预定 的 事件 发 生 时 ， 就 有 信和 号 会 通知 相关 的 进 
程 。 例 如 ， 网 络 管理 进程 等 待 两 种 类 型 的 事件 : 一 是 来 自 互联 网 上 的 数据 包 到 达 ， 随 后 它们 
必须 被 分 发 到 正确 的 接收 方 用 户 进程 ; 二 是 来 自用 户 进程 的 请 求 到 达 ， 随 后 其 数据 包 被 发 送 
到 互联 网 上 。 另 一 个 例子 是 实时 控制 进程 ， 例 如 医院 中 的 病人 监护 系统 ， 必 须 在 指定 时 间 
内 响应 传感器 的 通知 。 这 些 系统 对 协作 的 顺序 进程 模型 进行 了 扩展 : 允许 一 个 等 待 进程 能 
被 一 组 信号 中 的 任意 信号 唤醒 ， 而 不 仅仅 只 是 某 个 特定 信号 ; 同时 还 允许 进程 分 时 复 用 互 
斥 区 域 。 支 持 这 种 模型 的 编程 语言 从 20 世纪 70 年 代 开 始 就 被 广泛 使 用 ， 包 括 管 程 (Brinch 
Hansen 1973, Hoare) 以 及 面向 对 象 的 语言 ， 如 Modula, Smalltalk, CLU 和 Occam, ° 


MapReduce 系统 


MapReduce 系统 最 初 是 用 于 处 理 超大 型 数据 库 的 并 行 查询 和 检索 (Dean Ghemawat 
2004 )。 这 类 系统 在 “大 数据 ”方面 的 应 用 一 一 即 超大 数据 集 的 趋势 和 模式 分 析 ， 已 经 非 
常 成 功 。 其 核心 思想 是 程序 员 必 须 将 问题 划分 为 成 二 上 万 个 并 行 的 小 片段 ， 这 些小 片段 可 
以 在 互联 网 中 分 布 的 服务 器 上 完成 ， 而 所 有 小 片段 的 结果 又 能 够 快速 地 合并 成 原始 大 问题 
的 解答 。 这 一 想法 是 由 Google 提出 的 ， 使 得 能 够 对 分 布 在 世界 各 地 服务 器 上 的 Web 数据 
库 进行 大 规模 并 行 查询 ， 这 样 每 一 个 查询 请 求 在 0.5 秒 钟 内 就 可 以 得 到 响应 。Hadoop 就 
是 一 种 实现 MapReduce 的 开源 语言 。 

由 于 篇 幅 的 限制 ， 我 们 不 再 进一步 讨论 事件 驱动 的 系统 和 MapReduce 系统 。 协 作 的 
顺序 进程 模型 和 功能 系统 模型 足以 揭示 大 型 并 行 系统 中 协作 的 基本 原理 。 


协作 的 顺序 进程 
这 种 模型 从 进程 抽象 (process abstraction) 开始 。 第 一 个 分 时 系统 的 设计 者 发 明了 这 
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种 抽象 ， 来 处 理 多 个 程序 之 间 可 靠 地 切换 CPU 时 的 一 些 难题 。? Edsger Dijkstra ( 1965, 
1968a, 1968b) 提出 将 操作 系统 实现 为 一 组 协作 的 顺序 进程 ， 这 一 想法 被 广泛 地 接受 了 。 
Tony Hoare ( 1978 ) 将 其 整理 为 一 个 叫做 CSP ( Cooperating Sequential Processes， 协 作 的 
顺序 进程 ) 的 模型 ， 并 导致 了 用 于 编写 这 种 系统 的 Occam 语言 的 出 现 。20 世纪 80 年 代 ， 
Occam 在 一 些 超级 计算 机 中 经 常会 用 到 。 

实现 进程 抽象 涉及 大 量 的 低级 操作 系统 行为 。Dijkstra 用 一 个 非常 简单 的 用 户 接口 隐 
藏 了 所 有 繁杂 性 。 这 个 接口 给 出 了 创建 和 删除 进程 、 挂 起 和 恢复 进程 、 进 程 之 间 交 换 信号 
等 操作 ( 见 图 8.3 )。 





图 8.3 一 组 进程 多 路 复 用 CPU 的 机 制 是 建立 在 自动 保存 和 载 人 进程 状态 字 的 基础 上 。 所 谓 状 态 字 
(stateword, SW) 是 指 属于 某 个 进程 的 所 有 CPU 寄存 器 的 值 一 一 例如 ， 程 序 计数 器 、 栈 指 
针 、 运 算 寄 存 器 。 操 作 系 统 维护 一 系列 进程 控制 块 ( Process Control Block，PCB )， 每 一 个 
进程 控制 块 包含 了 一 个 状态 字 的 快照 。PID (Process Identifier， 进 程 标 识 符 ) 寄存 器 保存 了 
当前 正在 CPU 上 运行 的 进程 的 编号 。 图 中 进程 1 正在 运行 。SAVESW 指令 将 PID 编号 的 
进程 的 状态 字 复 制 到 其 PCB 中 。 当 PID 中 的 进程 编号 是 ;时 ，LOADSW 指令 将 PCB[i] 中 
保存 的 状态 字 复 制 回 CPU 中 ， 以 使 进程 i 能 从 上 一 次 被 中 断 的 地 方 继续 运行 。 一 个 TIMER 
寄存 器 ， 由 LOADSW 指令 初始 化 其 时 间 片 的 值 (此 处 是 100 毫秒 )， 向 下 计数 ， 当 值 变 为 0 
时 触发 一 个 超时 中 断 。 超 时 中 断 处理 函 数 先 执行 SAVESW ， 然 后 将 就 绪 表 头 的 下 一 个 进程 
编号 载 人 PID ， 再 执行 LOADSW。 就 绪 表 是 准备 运行 的 进程 的 队列 ， 图 中 ， 其 表 头 是 进程 
3， 表 尾 是 进程 4。PCB 中 的 小 框 表 示 表 中 的 下 一 个 进程 因此， 完整 的 就 绪 表 是 (3,1,4 )。 
还 有 一 个 等 待 表 ， 其 中 的 进程 不 能 执行 ， 因 为 要 等 待 特定 的 事件 ， 比 如 等 待 磁盘 传输 完成 。 
图 中 进程 2 就 在 等 待 。 一 旦 其 所 需 事 件 发 生 ， 进 程 2 就 从 等 待 表 头 移 到 就 绪 表 尾 。 进 程 0 
被 称 为 空闲 进程 ， 它 自动 排 在 就 绪 表 和 等 待 表 的 末尾 ， 当 没有 其 他 进程 准备 好 时 就 让 它 运 
行 。 每 当 没 有 准备 好 的 用 户 进 程 时 都 让 进程 0 运行 ， 这 一 规则 在 就 绪 表 为 空 时 可 以 保护 系 
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并 行进 程 将 竞 态 条 件 问题 带 到 软件 中 来 了 。 大 部 分 程序 员 并 不 习惯 处 理 竞 态 条 件 ， 
因为 他 们 编写 的 程序 是 顺序 的 ， 运 行 在 没有 电路 级 别 竞 态 条 件 的 硬件 上 ， 并 且 不 与 其 他 
程序 交互 。 图 8.4 展示 了 Alice 和 Bob 通过 不 同 的 ATM 机 同时 访问 一 个 共享 银行 账户 时 
出 现 的 问题 。 如 果 在 不 同 ATM 机 上 和 运行 代码 时 在 时 间 上 有 所 交叉 ， 就 会 产生 各 种 不 同 
的 结果 。 该 实现 与 Alice 和 Bob 以 为 的 各 自 交易 互 不 干扰 的 印象 不 同 。 他 们 以 为 自己 的 
交易 是 串 行 的 〈serialized)， 也 就 是 两 个 进程 总 是 先后 执行 ， 而 并 不 会 同时 执行 。 串 行 化 
(serialization) 是 解决 竞 态 条 件 的 一 种 方式 。 




















银行 数据 库 ALICE BOB 
A=-200 

ATM get bal A=100 
A=-200 A=100 pik m 31000) 

= N = 一 

= ~ |- bal=bal+A sind 

get bal get bal (bal=800) bal- bairA. 
bal=bal+A bal=bal+A (bale 1100) 
put bal put bal put bal 
put bal 
Alice Q © Bob | 
“取款 200” “存款 100” 


图 8.4 ”软件 代码 在 并 行 执 行 时 可 能 会 产生 竞 态 条 件 。 左 图 显示 了 Alice 和 Bob 试图 从 不 同 的 ATM 
机 同时 在 同一 个 账户 上 进行 交易 。 每 个 ATM 机 运行 一 个 简单 的 程序 ， 可 以 从 银行 数据 库 
中 读 取 账 户 余 额 、 根 据 交 易 额 增加 或 减少 账户 余额 、 再 将 账户 余额 存 回 银行 数据 库 。Alice 
和 Bob 都 认为 他 们 的 交易 是 不 可 分 割 的 操作 ， 不 管 谁 先 谁 后 ， 最 终 账 户 余 额 都 将 是 900 元 。 
可 是 ， 如 右 图 中 的 两 条 并 行 时 间 轴 所 示 ， 如 果 两 台 ATM 机 几乎 同时 开始 交易 ， 并 交错 执 
行 各 自 的 指令 ， 则 可 能 出 现 错 误 。 例 如 ，Alice i “AWRA, Bob 再 “查询 余额 ”; 然后 
Alice 从 账户 余额 的 本 地 副本 中 扣除 200 元 ，Bob 向 账户 余额 的 本 地 副本 中 加 上 100 元 ; 接 
着 Alice“ 保 存 余额 ”， 最 后 Bob“ 保 存 余额 ” 。 这 一 序列 的 操作 完成 之 后 ， 最 终 的 账户 余额 
是 错误 的 1100 元 。 时 序 稍微 转换 一 下 ， 使 Alice 在 Bob 之 后 “保存 余额 ”， 则 余额 是 800 
元 ， 也 是 不 对 的 


设计 者 试图 用 锁 来 解决 这 类 问题 ， 锁 是 一 个 保存 值 1 (加 锁 ) 或 值 0〈 未 加 锁 ) 的 内 存 
单元 。 锁 被 指派 来 保护 一 组 特定 的 共享 数据 。 一 个 进程 在 使 用 共享 数据 时 加 锁 ， 使 用 完毕 
后 解锁 。 想 要 使 用 该 数据 的 任何 进程 先 查看 锁 ， 只 有 当 未 加 锁 时 才能 继续 执行 。 图 8.5 显 
示 了 这 一 过 程 是 如 何 工作 的 。 为 了 避免 查看 锁 时 的 严重 竞 态 条 件 ， 需 要 加 入 一 条 硬件 辅助 
指令 一 一 “测试 - 置 位 ”(test-and-set) 指令 。 

图 8.5 中 的 加 锁 解 决 方案 是 有 代价 的 一 一 存在 一 个 称 为 性 等 待 (busy waiting) 的 开销 
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P1 P3 用 常规 指令 加 锁 
while lock=1 do { } 

$ lock = 1 

Update Update D critical section 
lock = 0 

oe 


P2 


A 
Update D 


四 个 进程 通过 “update D” 访 问 共 享 数 据 对 象 D,“ update D” 可 以 是 读 写 DD 的 任意 指令 
序列 。 若 四 个 进程 一 起 开始 更 新 ,， D 最 终 的 值 将 取决 于 哪个 进程 最 后 执行 ， 并 可 能 与 它们 
以 任何 串 行 顺序 执行 所 得 到 的 D 值 都 不 同 。 像 “ update D” 这 样 的 必须 作为 一 个 整体 单元 
执行 的 代码 段 ， 叫 做 临界 区 (critical section) 。 当 任 一 进程 更 新 共享 数据 时 ， 对 其 加 锁 ， 就 
可 以 避免 临界 区 竞争 。 锁 是 一 个 存储 在 RAM 中 的 变量 (此 处 是 x)， 并 与 共享 数据 D 关联 。 
x 三 0 表示 D 未 上 锁 , 任 一 进程 都 可 以 访问 它 。x = 1 表示 DD 被 一 个 进程 上 锁 ， 其 他 进程 不 
可 以 访问 。 该 锁 协 议 见 图 中 右上 角 所 示 。 不 幸 的 是 ， 该 协议 本 身 包含 一 个 错误 ， 称 为 “ 锁 
竞争 ”: 若 两 个 进程 在 各 自 设 置 lock = 1 之 前 同时 读 到 lock = 0， 那么 两 个 进程 可 以 同时 进 
入 临界 区 。 为 了 避免 这 个 问题 ， 大 部 分 CPU 实现 了 一 个 称 为 “测试 - 置 位 锁 ”(test-and-set 
lock) 的 硬件 指令 ， 缩 写 为 “TSL x”, WIT TSL 指令 将 返回 x 的 值 并 置 位 x = 1。TSL 被 实 
现在 一 个 内 存 周期 内 完成 ， 因 此 它 不 会 被 其 他 TSL 中 断 

较 大 的 问题 。 忙 等 待 是 指 CPU 循环 测试 锁 状 态 ， 等待 其 解锁 。 忙 等 待 会 浪费 大 量 CPU 时 

间 从 而 对 分 时 系统 造成 严重 影响 。 如 果 在 进程 等 待 锁 时 将 其 挂 起 ， 当 锁 释放 时 再 将 其 恢 

复 ， 则 情况 会 好 很 多 。 

Edsger Dijkstra ( 1968a,1968b) 发 明了 信号 量 (semaphore)， 很 好 地 解决 了 这 个 问题 。 
信和 号 量 是 一 个 锁 ， 其 中 包含 了 等 待 其 解锁 的 进程 的 队列 。 任 何 想 要 获得 加 锁 权 限 的 进程 ， 
会 立即 从 CPU MRA PSK, FATES ASI. wait 和 signal 操作 分 别 执行 上 
锁 和 解锁 ， 并 管理 队列 CLA 8.6). 

信和 号 量 也 为 并 行进 程 间 很 多 其 他 同步 问题 提供 了 优雅 的 解决 方案 。 每 个 同步 会 涉及 
Tor Bis 

1) 一 个 或 多 个 发 送 者 进程 。 

2 ) 一 个 或 多 个 接收 者 进程 。 

3 ) 发 送 者 和 接收 者 协作 ， 使 得 每 个 发 送 者 在 到 达 指 定点 之 前 ， 没 有 接收 者 可 以 越过 
相应 的 指定 点 。 






用 TSL 指 令 加 锁 
while TSL(x) do { } 
lock = 1 


critical section 
lock = 0 
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wait(x) 
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update D 
signal(x) 


图 8.6 Edsger Dijkstra 发 明了 信和 号 量 作为 临界 区 加 锁 的 一 种 方式 ， 避 免 了 TSL 方法 中 隐 含 的 忙 等 
待 问题 (图 8.5 ) 。 信 和 号 量 从 一 个 进程 向 另 一 个 进程 传递 信号 ， 并 延迟 接收 方 直到 信和 号 可 用 。 
它 由 一 个 计数 器 和 一 个 队列 组 成 。 计 数 器 初 值 是 不 需要 等 待 就 可 以 得 到 信号 的 个 数 。 信 号 
量 x 的 wait(x) 操作 从 计数 器 中 减 1， 如 果 结 果 为 负 ， 则 将 调用 方 放 人 队列 并 睡眠 。 注 意 负 
的 计数 器 值 的 大 小 就 是 队列 的 长 度 。signal(x) 操作 给 计数 器 加 1， 如 果 结 果 非 正 ， 就 唤醒 队 
列 中 的 第 一 个 进程 。 右 图 是 信号 量 可 能 的 状态 的 示例 。a 是 初始 状态 ， 计 数 器 是 1， 队 列 是 
空 。 第 一 个 请 求 临 界 区 的 进程 不 需要 等 待 直接 通过 。 状 态 5b 表示 某 个 进程 在 临界 区 中 ， 没 
有 进程 在 等 待 。 状 态 c 表示 有 一 个 进程 (此 处 是 进程 2 ) 在 等 待 。 状 态 4 表示 两 个 进程 在 等 
待 ， 队 列 是 (1，4 )。 下 一 个 signal 操作 将 唤醒 进程 1。 状 态 e 表 示 三 个 进程 在 等 待 ， 队 列 
是 (3，1，4 )， 下 一 个 signal 将 唤醒 进程 3 
发 送 者 进程 使 用 信和 号 量 发 信号 表明 它 已 到 达 指 定点 。 接 收 者 进程 使 用 同一 个 信和 号 量 
在 指定 点 停止 并 等 待 ， 直 到 接收 到 信号 。 对 于 这 类 信号 ， 信 和 号 量 提 供 了 最 简单 的 通道 和 排 
队 机 制 。 
一 种 常见 的 同步 模式 是 进程 从 共享 资源 池 中 借用 资源 单元 ， 之 后 再 归还 回去 。 内 存 
页 面 就 是 这 样 的 例子 。 当 缺 页 时 ， 虚 拟 内 存 管 理 器 从 空闲 页 面 池 提取 一 个 未 使 用 的 页 面 ， 
将 其 分 配给 缺 页 进程 ; 之 后 ， 该 页 面 通 过 替换 算法 归还 页 面 池 。 资 源 池 的 使 用 是 由 信和 号 量 
来 保证 其 同步 的 : 计数 器 记录 了 资源 池 中 剩余 资源 的 数量 ，wait 操作 授权 提取 一 项 资源 ， 
signal 操作 在 资源 归还 资源 池 时 发 起 通知 。 
采用 信号 量 来 解决 的 另 一 个 常见 同步 问题 是 通过 缓冲 区 将 资源 流 从 “生产 者 ”进程 传 
输 到 “消费 者 ”进程 。 缓 冲 区 是 一 个 有 限 的 存储 区 域 ， 用 来 保存 “在 途中 ”的 资源 。 这 里 
的 问题 是 要 避免 缓冲 区 上 溢 (overflow) 1 Ft (underflow)。 上 游 指 生产 者 已 经 填 满 了 组 
冲 区 ， 而 之 前 的 资源 在 被 消费 者 取 走 前 又 被 新 资源 覆盖 了 。 下 溢 是 指 消 费 者 已 经 读 取 了 全 
部 缓冲 区 资源 ， 在 新 的 资源 到 来 之 前 又 再 次 读 取 了 原来 的 资源 。 上 溢 会 造成 资源 的 丢失 ， 
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而 下 溢 会 造成 资源 的 重复 。 解 决 该 同步 问题 的 协议 使 用 了 两 个 信号 量 : 

1 )“ 空 ”信号 量 ， 其 计数 器 初始 化 为 Y， 即 缓冲 区 的 大 小 。 该 计数 表示 未 使 用 的 缓冲 
槽 的 数量 。 

2 )“ 满 ”信号 量 ， 其 计数 器 初始 化 为 0， 该 计数 表示 已 使 用 的 缓冲 槽 的 数量 。 

要 向 缓冲 区 中 插入 一 项 资源 时 ， 生 产 者 等 待 空 信号 量 ， 将 资源 放置 在 下 一 个 未 使 用 
的 槽 中 ， 并 通过 满 信 号 量 发 信号 。 要 从 缓冲 区 中 取 走 一 项 资源 时 ， 消 费 者 等 待 满 信号 量 ， 
从 下 一 个 存 有 资源 的 槽 中 取出 资源 ， 并 通过 空 信号 量 发 信号 。 

虽然 信号 量 能 够 解决 并 行进 程 之 间 的 很 多 同步 问题 ， 但 是 也 引入 了 新 的 问题 。 最 大 
的 问题 就 是 死 锁 〈deadlock)。 和 死 锁 是 持 有 并 请 求 共享 资源 的 一 组 进程 之 间 的 一 种 循环 等 
待 状态 。 假 定 每 个 资源 有 一 个 锁 表 示 它 正在 使 用 ， 死 锁 时 ,一 组 进程 都 停 下 来 ， 每 个 进程 
持 有 一 个 锁 ， 并 等 待 组 内 的 另 一 个 进程 释放 锁 。 解 除 死 锁 的 唯一 出 路 就 是 杀 死 组 内 所 有 进 
程 ， 释 放 它 们 的 锁 ， 并 重新 开始 。 

在 前 述 ATM 问题 中 可 以 看 到 死 锁 的 例子 。 考 虑 ATM 转账 交易 ， 这 种 交易 是 从 付款 账 
户 中 减 去 一 个 金额 ， 并 向 收 款 账户 中 增加 相同 的 金额 。 通 过 编程 使 ATM 机 在 进行 转账 之 
前 锁定 两 个 账户 ,我 们 可 以 避免 产生 竞 态 条 件 。 一 旦 两 个 账户 被 锁定 ， 则 当 第 一 个 交易 正 
在 使 用 这 两 个 记录 时 ， 我 们 无 须 担 心 其 他 交易 会 访问 它们 。 想 一 想 ， 如 果 Alice 和 Bob 同 
时 开始 转账 ， 两 个 ATM 机 会 发 生 什么 〈 见 表 8.1 )。 信 号 量 4 和 8B 的 计数 器 都 初始 化 为 1。 





表 8.1 设置 一 个 死 锁 


ATM 1: ATM 2: 

“Alice(A) 向 Bob(B) 转账 100 元 ” “Bob(B) 向 Alice(A) 转账 200 元 ” 
wait(A) wait(B) 

wait(B) wait(A) 

A=A-100 B =B -200 

B=B+100 A =A +200 

signal(A) signal(B) 

signal(B) signal(A) 





假设 两 个 ATM 机 同时 开始 ， 执 行 各 自 的 第 一 组 指令 ， 使 两 个 信号 量 都 为 0。 现在 它 
们 必然 要 失败 ， 因 为 ATM] 被 挂 起 等 待 信号 量 ，ATM2 被 挂 起 等 待 信号 量 4， 它 们 都 无 
法 继续 。 

解决 死 锁 有 很 多 的 方法 ， 这 里 我 们 简要 介绍 最 重要 的 三 种 5。 第 一 种 是 让 死 锁 发 生 ， 
然后 杀 死 涉及 的 进程 使 系统 脱离 死 锁 。 检 测算 法 是 简单 建 一 个 图 ， 显 示 哪 些 进 程 持 有 锁 、 
哪些 进程 正在 请 求 锁 ， 然 后 在 该 图 中 寻找 环 。 环 就 表示 循环 等 待 。 该 方法 通常 不 能 令 人 满 
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意 ， 不 仅 因 为 杀 死 死 锁 进程 的 代价 很 高 ， 还 因为 该 方法 无 法 检测 即将 发 生 的 不 可 避免 的 死 
锁 。 例 如 ， 上 述 的 ATM 机 在 完成 各 自 第 一 个 wait 操作 后 并 不 会 马上 死 锁 ， 直 到 两 者 都 在 
第 二 个 wait 操作 处 停 下 ， 该 不 可 避免 的 死 锁 才 会 被 检测 到 。 

第 二 种 方法 旨 在 通过 预先 获取 锁 来 避免 死 锁 。 在 执行 临界 代码 之 前 ， 进 程 先进 入 一 
个 循环 ， 在 循环 中 获取 它 需 要 的 所 有 锁 后 ， 然 后 才能 继续 执行 。 如 果 进 程 发 现 所 需 的 某 个 
锁 已 经 上 锁 ， 它 会 释放 已 经 获得 的 所 有 锁 并 重新 开始 。 该 协议 可 以 避免 死 锁 ， 其 代价 是 可 
能 造成 活 锁 (livelock) 一 一 两 个 或 多 个 进程 在 同步 中 无 限 循环 ， 相 互 阻碍 使 得 对 方 拿 不 到 
所 有 需要 的 锁 。 

第 三 种 方式 是 强制 按照 固定 的 优先 次 序 来 获取 锁 ， 从 而 避免 死 锁 。 为 所 有 的 锁 编 号 
或 指定 字母 数字 名 称 。 只 有 当 新 锁 的 编号 或 名 称 大 于 一 个 进程 已 经 拿 到 的 各 个 锁 ， 该 进程 
才 可 以 请 求 这 个 新 锁 。 有 了 这 个 约束 ， 进 程 之 间 就 不 再 会 发 生 循环 等 待 *。 将 此 方法 应 用 
于 前 述 ATM 转账 的 例子 中 ， 转 账 程序 首先 将 涉及 的 账户 名 按 字母 升序 排列 ， 然 后 按 此 顺 
序 执行 wait 操作 ”。 


功能 系统 


协作 的 顺序 进程 模型 有 一 个 隐 含 的 假定 : 每 个 进程 都 是 运行 在 一 个 指令 速率 和 电路 
均 由 时 钟 控制 的 CPU 上 。 并 发 是 发 生 在 进程 之 间 ， 而 不 是 进程 内 部 。 

受 时 钟 控制 的 系统 扩展 性 不 佳 ， 时 钟 节拍 间隔 必须 超过 信和 号 在 芯片 中 最 长 路 径 上 传 
输 的 时 间 。 尺 才 更 大 的 芯片 意味 着 更 慢 的 时 钟 。 而 在 高 密度 的 芯片 上 使 用 更 快 的 时 钟 ， 会 
产生 散热 的 问题 。 

发 送 就 绪 - 确认 信和 号 可 用 于 构造 自 定 时 电路 ， 即 没有 时 钟 的 电路 。 当 4 部 件 有 一 个 
对 B 部 件 的 请 求 时 ， 如 要 传输 数据 或 要 开始 一 个 操作 ，4 先 向 B 发 送 就 绪 信 号 。 该 就 绪 
信号 激活 B, “4 B 处 理 完 该 请 求 时 ，B 向 4 返回 一 个 确认 信号 。 该 过 程 结束 后 允许 下 一 轮 
4 一 B 交 互 开 始 ， 并 可 以 无 限 重复 。 自 定时 电路 的 能 耗 要 低 得 多 ， 因 为 只 有 当 数 据 被 传输 
或 变换 时 部 件 的 状态 才 会 发 生 改 变 。 

最 简单 的 (也 是 最 早 的 ) 自 定 时 系统 模型 是 访问 共享 内 存 的 任务 网 络 。 每 个 任务 完成 
一 项 简单 的 功能 。 一 些 任务 有 先后 顺序 的 约束 ， 意 味 着 只 有 当前 驱 任 务 都 完成 后 它们 才能 
开始 执行 。 若 任务 之 间 不 存在 先后 顺序 的 约束 ， 则 它们 是 并 发 的 ( concurrent)。 当 一 个 任 
务 的 所 有 前 驱 都 完成 后 ， 该 任务 可 以 随时 激发 〈fire)。 当 任务 激发 时 ， 它 从 内 存单 元 的 指 
定 输入 集中 读 取 数据 ， 进 行 处 理 ， 再 把 结果 数据 写 和 人 内 存单 元 的 指定 输出 集中 。 一 个 任务 
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网 络 的 激发 次 序 就 是 一 个 与 先后 顺序 的 约束 相 一 致 、 并 按 执行 顺序 排列 的 任务 列表 。 那 些 
有 少量 先后 顺序 约束 、 同 时 有 大 量 并 发 任务 的 网 络 ， 其 激发 次 序 可 以 有 很 多 种 (如 图 8.7 


所 示 )。 


图 8.7 





任务 图 将 任务 节点 OAR Ba) 实现 的 功能 连接 成 网 络 。 左 图 显示 了 四 个 任务 4、B、C、 
D， 其 中 有 两 个 用 虚线 箭头 表示 的 先后 顺序 约束 。 任 务 可 以 按 符合 约束 的 任意 顺序 激发 ， 并 
执行 其 功能 。 可 能 的 激发 次 序 是 B4CD、4BCD、4CBD、4CDB。 右 图 显示 了 每 个 任务 从 
特定 的 内 存单 元 (用 灰色 方 框 表 示 ) 中 取得 输入 ， 并 将 输出 写 到 另外 的 内 存单 元 。 例 如 ， 任 
务 4 从 内 存单 元 1 和 2 中 获得 输入 ， 再 将 它 的 结果 写 到 内 存单 元 4 和 5 中 ; 任务 C 从 内 存 
单元 4 和 5 中 获得 输入 ， 再 将 其 结果 写 到 内 存单 元 7 中 。 不 同 的 激发 次 序 会 产生 不 同 的 最 
终结 果 ， 最 后 都 存放 在 内 存单 元 8 中 。 假 定 内 存单 元 中 的 初始 值 和 其 编号 相同 ， 所 有 节点 
都 执行 加 法 操作 ， 这 样 ， 激 发 次 序 B4CD 产生 的 结果 是 11，4BCD 的 结果 是 13，4CBD 的 
结果 是 11，4CDB8 的 结果 是 12。 这 些 不 同 是 由 两 种 竟 态 条 件 导致 的 : (1 ) 输出 - 输出 竞争 ， 
两 个 并 发 的 任务 将 结果 写 人 同一 个 内 存单 元 。 例 如 内 存单 元 4 中 的 值 依赖 于 4 和 B 的 激发 
次 序 。(2 ) 输入 -输出 竞争 ， 一 个 并 发 任务 写 和 人 的 内 存单 元 被 另 一 个 任务 读 取 。 例 如 ， 内 
存单 元 6 就 处 于 B 和 DD 之 间 的 输入 一 输出 竞争 中 ， 这 会 影响 内 存单 元 8 中 的 值 ; 而 内 存单 
元 4 则 处 于 B 和 CC 之 间 的 输入 一 输出 竞争 中 ， 这 会 影响 内 存单 元 7 中 的 值 。 为 了 避免 竞争 ， 
不 允许 任何 任务 向 并 发 任务 读 或 写 的 内 存单 元 中 写 数据 


在 一 个 没有 竞 态 条 件 的 网 络 中 ， 我 们 期 望 对 于 该 网 络 的 每 一 个 输入 ， 只 能 从 该 网 络 
得 到 唯一 一 个 输出 。 网 络 的 每 一 个 输出 值 仅 仅 取决 于 内 存 中 的 初始 值 ， 而 与 激发 次 序 无 


关 。 图 


8.7 中 的 任务 系统 并 没有 实现 一 项 “确定 ”的 功能 。 


如 果 一 个 任务 网 络 的 总 体 行为 是 一 项 与 其 激发 次 序 无 关 的 功能 ， 则 称 其 为 确定 性 的 
( determinate)。 图 8.7 显示 的 是 一 个 非 确定 性 系统 。 即 使 各 个 任务 实现 了 各 自 功能 ， 也 不 
能 保证 该 任务 系统 作为 一 个 整体 实现 了 一 项 “确定 ”的 功能 。 
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对 于 天 气 预报 、 石 油 勘探 、 机 可 设计 等 大 型 计算 来 说 ， 确 定性 极其 重要 。 组 成 计算 
的 小 任务 大 部 分 是 并 发 的 ， 它 们 可 以 并 行 运行 ， 从 而 获得 高 性 能 。 如 果 计 算 的 结果 取决 于 
任务 的 某 个 确切 激发 次 序 ， 则 无 法 保证 得 到 的 结果 是 正确 的 。 我 们 怎样 才能 知道 哪 次 执行 
是 对 的 呢 ? 我 们 可 不 希望 因为 设计 机 辟 的 超级 计算 机 中 或 者 飞行 中 控制 机 杜 的 航空 电子 系 
统 中 不 可 预测 的 任务 激发 次 序 而 使 飞机 从 天 上 掉 下 来 。 

在 调试 中 ， 非 确定 性 也 是 一 个 严重 的 问题 。 如 果 一 个 错误 无 法 被 分 离 并 重 现 ， 调 试 
起 来 就 非常 困难 ， 甚 至 是 不 可 能 完成 的 。 依 赖 于 并 行 任务 激发 次 序 的 错误 看 起 来 像 是 随机 
的 、 间 歇 性 的 故障 ， 无 法 被 重 现 。 就 算 它们 能 够 被 检测 到 ， 也 很 难 在 任务 系统 中 定位 产生 
故障 的 确切 位 置 。 早 期 的 任务 系统 设计 者 把 这 种 时 间 相 关 的 问题 称 为 “潜伏 错误 ”(lurking 
bug). 

幸运 的 是 ， 一 种 非常 简单 的 约束 就 可 以 保证 任务 网 络 远离 潜伏 错误 ， 并 保证 对 于 相 
同 的 输入 ， 任 务 网 络 的 每 次 执行 都 能 得 到 相同 的 输出 : 不 允许 任何 任务 向 并 发 任务 读 或 写 
的 内 存单 元 中 写 数据 。 这 就 是 并 行 系统 的 确定 性 定理 "。 

最 后 ， 我 们 再 谈 谈 如 何在 没有 时 钟 的 自 定 时 计算 机 上 实现 任务 系统 。MIT 的 Jack 
Dennis 和 David Misunas ( 1975 ) 为 此 设计 了 数据 流体 系 结构 。 尽 管 数据 流体 系 结构 还 未 
被 商业 化 ， 但 它们 是 大 规模 自 定 时 计算 机 的 概念 证 明 。 比 起 当前 的 超级 计算 机 ， 数 据 流体 
系 结构 在 规模 上 有 更 好 的 可 扩展 性 ， 而 且 能 耗 更 低 ， 因 此 ， 可 能 有 一 天 它们 在 商业 上 会 很 
有 具 吸 引力 。 

基本 的 数据 流 计算 机 由 三 个 部 分 组 成 : 执行 单元 、 数 据 存储 器 、 互 联网 络 。 执 行 单元 
包含 的 部 件 和 传统 CPU 中 的 很 像 ， 例 如 加 法 器 和 乘法 器 。 数 据 存储 器 包含 任务 系统 图 的 表 
示 ， 就 像 图 8.7 中 的 那样 ， 但 是 要 大 很 多 。 两 类 特殊 类 型 的 任务 一 一 选择 器 和 和 迭代 器 ， 控 
制 着 全 部 子 图 的 激活 。 互 联网 络 是 一 个 高 度 并 行 的 网 络 ， 先 将 描述 已 激发 任务 的 数据 包 传 
输 到 执行 单元 ， 这 些 已 激发 的 任务 会 在 那里 被 执行 ;然后 再 从 执行 单元 中 返回 包含 结果 的 
数据 包 。 因 为 数据 包 在 数据 存储 器 和 执行 单元 之 间 往 返 耗 时 ， 在 执行 单元 上 执行 一 个 任务 
的 时 间 会 比 在 传统 CPU 上 慢 一 些 , 但 由 于 可 以 大 规模 的 并 行 ， 总 体 吞 吐 量 可 能 会 非常 高 。 

任务 的 一 种 标准 表示 方法 是 一 个 包含 输入 、 输 出 以 及 完成 任务 功能 的 操作 代码 等 字 
段 的 数据 项 。 例 如 : 


(inl, pl, in2, p2, OP, outl, out2) 
其 中 ， 


o inl 和 in2 是 数据 槽 ， 其 他 任务 在 完成 时 会 往 其 中 插 和 人 数值 。 
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e pl 和 p2 是 标识 位 ， 分 别 指示 inl 和 in2 中 的 数值 是 否 存在 。 

© OP 是 操作 的 名 称 。 

© outl 和 out2 是 任务 所 需 输入 的 地 址 ， 将 接收 OP 的 输出 结果 。 

任务 的 执行 周期 如 下 : 

e “pl 和 p2 都 是 1 时， 操作 被 激活 。 

o 数据 存储 器 创建 一 个 数据 包 ， 包 含 数值 副本 、 操 作 代码 、 被 激活 操作 结果 的 存放 

地 址 ， 并 将 该 数据 包 发 送 给 执行 单元 。 

o 根据 操作 的 类 型 ， 执 行 单元 将 数据 包 路 由 到 相应 的 功能 单元 。 

o 功能 单元 用 数据 包 中 提供 的 数值 执行 运算 。 

o 功能 单元 用 数据 包 中 提供 的 地 址 创建 发 往 收 件 人 的 输出 数据 包 。 

o 输出 数据 包 返 回 到 数据 存储 器 ， 其 值 被 复制 给 目标 任务 的 输入 ， 并 将 相应 的 p 位 

置 为 1。 

在 这 样 的 安排 下 ， 一 旦 数据 包 到 达 数 据 存储 器 和 执行 单元 ， 动 作 就 会 被 触发 。 

为 数据 流 设 计 硬 件 并 不 是 真正 的 瓶颈 一 一 现代 体系 结构 已 经 包含 了 流水 线 、 多 核 芯片 
和 图 形 处 理 器 ， 所 有 这 些 都 依赖 于 数据 流 方 法 。 真 正 的 瓶颈 在 于 算法 设计 和 语言 设计 。 

1976 年 ， 普 度 大 学 的 John Rice 发 表 了 一 项 关于 数值 计算 性 能 的 研究 ， 如 求解 环绕 飞 
辟 的 气流 的 向 量 场 。1940 年 以 来 ， 硬 件 速度 已 经 提高 了 一 百 万 倍 ( 104)， 算 法 自身 也 提高 
了 一 百 万 倍 ， 合 起 来 就 提高 了 10” 倍 。 换 名 话说， 有 一 半 的 提高 是 来 自 于 算法 设计 。 

如 今 算 法 设计 和 1976 年 时 一 样 重要 。 一 个 重要 的 区 别 是 John Rice 报告 的 性 能 提高 
是 由 数值 计算 专家 创造 的 ， 并 封装 成 标准 的 数值 功能 数学 函数 库 。 每 天 ， 程 序 员 只 是 简单 
地 使 用 函数 库 ， 并 不 需要 考虑 算法 内 部 结构 。 

如 今 ， 由 于 使 用 多 核 计算 机 ， 世 界 各 地 的 程序 员 必 须 设计 更 多 的 并 行 算法 。 然 而 ， 
大 部 分 程序 员 没 有 受过 “并 行 思考 ”的 训练 。 对 于 很 多 编程 语言 来 说 ， 多 线程 是 一 个 非常 
难 用 的 附加 部 分 。 只 有 少数 语言 把 并 行 功能 作为 其 基础 设计 的 一 部 分 。 为 了 使 大 部 分 程序 
更 加 并 行 化 ， 程 序 员 需 要 学 会 从 一 开始 就 考虑 并 行 性 ， 训 练 自己 的 思维 去 处 理 现实 世界 中 
存在 的 所 有 并 行 性 ， 并 使 用 新 的 语言 表达 自己 的 设计 。 


结论 


看 起 来 似乎 很 奇怪 ,一 次 只 执行 一 步 的 计算 机 主 衬 了 一 个 有 着 丰富 并 发 活动 的 世界 。 
并 行 系统 应 该 是 一 个 更 好 的 选择 ， 因 为 它们 能 调动 数量 庞大 的 处 理 器 ， 所 以 可 以 提供 比 串 
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行 计算 更 加 显著 的 加 速 潜力 。 

这 个 好 处 是 有 代价 的 。 并 行 性 给 程序 员 带 来 了 新 的 挑战 ， 其 中 最 主要 的 就 是 竞 态 条 
件 、 同 步 和 死 锁 。 调 试 也 变 得 更 加 困难 。 我 们 如 何 才 能 限制 一 个 系统 只 做 “正确 ”的 执 
行 ， 尤其 是 在 可 能 的 执行 序列 数量 随 系统 规模 呈 指 数 级 或 更 急剧 的 方式 增长 的 时 候 ? 为 了 
做 到 这 一 点 ,我 们 已 经 开发 了 大 量 的 协议 ,包括 使 用 信号 量 、 在 并 发 任务 间 共 享 内 存 以 及 
等 待 竞争 的 资源 等 。 

面向 一 组 协作 顺序 进程 的 并 行 处 理 模 型 已 经 使 用 了 很 多 年 ， 它 对 传统 的 顺序 进程 模 
型 进行 了 直观 的 扩展 。 该 模型 已 被 证 明 难 以 扩展 到 超大 规模 计算 上 。 另 一 个 重要 的 方法 是 
功能 系统 模型 ， 它 面向 大 量 的 “就 绪 就 激发 ”( fire when ready) 型 简单 任务 ， 这 些 任务 共 
同 实现 对 一 个 问题 的 求解 。 这 种 系统 依赖 于 没有 时 钟 的 自 定时 电路 。 一 个 简单 的 结构 化 规 
则 一 一 不 允许 任何 任务 向 被 并 发 任务 读 或 写 的 内 存单 元 中 写 数据 一 一 足以 保证 任意 规模 的 
任务 系统 是 确定 性 的 。 
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Great Principles of Computing 


排 ” 队 





确定 性 系统 的 不 可 预测 行为 源 于 驱动 系统 的 工作 负载 缺乏 确定 性 。 
—Jeffrey P. Buzen 
网 络 的 最 初 想法 是 在 很 多 人 之 间 共 享 计算 机 、 应 用 程序 、 软 件 及 数据 。 


—— Leonard Kleinrock 


一 家 大 型 航空 公司 建立 了 一 套 计算 机 订 票 系统 ， 并 授权 全 球 1000 家 代理 在 工作 站 上 
使 用 该 系统 出 售 他 们 飞机 上 的 座位 。 一 个 位 于 秘密 、 安 全 位 置 的 数据 中 心 记录 了 所 有 航 
班 、 航 线 以 及 预订 等 信息 。 平 均 而 言 ， 每 个 代理 每 隔 60 秒 向 数据 库 发 起 一 项 作业 。 每 项 
作业 平均 向 数据 中 心 的 目录 磁盘 (directory disk) 发 出 10 个 请 求 ， 来 定位 包含 实际 数据 的 
其 他 磁盘 。 目 录 磁 盘 平均 耗费 5 上 毫秒 来 处 理 每 个 请 求 ， 其 繁忙 时 间 达 到 80%。 

这 套 系统 每 小 时 可 以 处 理 多 少 个 全 球 范围 的 作业 ? 巴黎 的 一 家 代理 体验 到 的 平均 响 
应 时 间 是 多 少 ? 如 果 有 一 种 存储 目录 的 新 方法 可 以 使 每 个 交易 的 目录 访问 次 数 降 低 到 5 
次 ， 那么 响应 时 间 会 有 什么 变化 ?如果 代理 的 数量 翻番 ， 响 应 时 间 又 会 有 什么 变化 ? 

这 些 都 是 关于 “一 个 网 络 计 算 机 系统 响应 大 量 竞 争 的 自主 进程 的 请 求 的 能 力 ” 的 典 
型 问题 一 一 在 前 一 章 中 我 们 称 其 为 “竞争 并 行 ”( competitive parallelism). RIIA ZW 
估 在 不 同 负 和 载 下 网 络 系统 的 行为 。 在 第 6 章 “ 计 算 ” 中 讨论 过 的 算法 分 析 (algorithms 
analysis)， 远 不 足以 用 来 回答 这 类 问题 。 算 法 分 析 关 注 的 是 解决 问题 所 需 的 CPU 时 间 ， 
而 不 关注 其 他 必需 的 服务 (例如 网 络 连接 、 输 入 输出 及 存储 访问 ) 所 带 来 的 延迟 。 此 外 ， 
这 些 服务 带 来 的 延迟 不 仅仅 取决 于 服务 器 群 的 结构 ， 还 取决 于 其 他 竞争 同一 服务 器 群 的 进 
程 所 排 成 的 队列 。 算 法 分 析 能 回答 一 个 独立 进程 的 执行 时 间 这 样 的 问题 ， 但 它 无 法 回答 一 
个 系统 中 多 进程 间 相 互 竞争 资源 时 的 性 能 问题 。 

我 们 可 以 用 排队 分 析 (queueing analysis) 来 解决 这 类 问题 (Denning 1991a, 1991b), 
大 多 数 人 认为 上 面 四 个 问题 的 答案 取决 于 系统 结构 的 细节 一 一 代理 的 工作 站 所 在 位 置 及 其 
类 型 、 每 个 工作 站 和 数据 中 心 之 间 的 通信 带宽 、 数 据 中 心 的 磁盘 数量 和 类 型 、 磁 盘 的 访问 
模式 、 数 据 中 心 的 本 地 处 理 器 和 随机 存 取 存储 器 、 操 作 系 统 的 类 型 、 交 易 的 类 型 ， 等 等 。 
确实 ， 前 两 个 问题 一 一 关于 吞吐 率 (throughput) 和 响应 时 间 (response time) 一 一 只 利用 
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上 述 给 出 的 信息 就 可 以 准确 地 回答 。 而 对 于 第 三 和 第 四 个 问题 ， 由 于 配置 的 改变 ， 系 统 行 
为 的 合理 估算 可 以 通过 以 上 可 用 的 信息 和 几 个 可 信 的 假设 得 出 。 


排队 论 遇 上 计算 机 科学 

排队 论 是 数学 的 一 个 分 支 ， 始 于 20 世纪 初期 ， 用 于 预测 排队 中 的 等 待 延迟 。 它 源 于 
哥本哈根 电话 工程 师 A. K. Erlang (1909) 的 一 项 研究 一 一 预测 自动 电话 交换 系统 中 的 呼 损 
率 (loss probability)。 当 调查 呼叫 者 对 电话 系统 的 需求 时 一 一 特别 是 到 达 (arrival) 之 间 的 
时 间 (呼叫 的 次 数 ) 与 服务 时 间 (通话 的 总 长 度 ) 一 一 他 发 现 到 达 时 间 和 服务 时 间 均 旦 指数 
分 布 。 他 发 现 一 次 到 达 间 隔 时 间 (interarrival time) 超过 1 秒 的 概率 是 e”“， 其 中 1/ 是 到 达 
之 间 的 平均 间隔 时 间 。 相 似 地 ， 他 发 现 一 个 通话 长 度 超过 + 秒 的 概率 是 e“， 其 中 1/ 是 平 
均 的 通话 持续 时 间 。 到 达 和 服务 的 指数 分 布 假设 ， 大 大 简化 了 Erlang 的 数学 表达 ， 并 为 电 
话 交 换 提供 了 非常 精确 的 模型 。 从 此 , 在 排队 论 中 ,字母 4 和 特 指 到 达 率 和 服务 率 。 

过 了 几 年 ，Erlang (1917) 发 表 了 一 个 用 于 预测 电话 交换 系统 呼 损 率 的 模型 ， 该 模型 
是 出 于 对 电话 交换 中 的 开销 和 复杂 性 的 实际 考虑 。 即 使 在 小 镇 上 ， 一 个 能 够 100% 接收 全 
部 可 能 的 电话 呼叫 的 中 心 也 是 极其 昂贵 的 。Erlang 的 研究 表明 ， 一 个 更 小 的 实惠 的 中 心 同 
样 可 以 工作 ， 只 要 镇 上 的 居民 能 够 接受 当 他 们 打 电 话 时 有 很 小 的 几率 不 被 系统 所 接受 。 

Erlang 的 方法 使 用 了 俄罗斯 数学 家 安 德 烈 . 马尔 可 夫 在 1906 年 发 明 的 马尔 可 夫 链 
(Markov chain)。 马 尔 可 夫 链 是 一 个 随机 过 程 ， 它 包含 一 个 状态 序列 ， 其 中 下 一 个 状态 的 
取 值 仅 依赖 于 当前 状态 ， 而 和 之 前 的 任何 状态 无 关 。 当 状态 转换 的 间隔 时 间 服 从 指数 分 布 
时 ， 马 尔 可 夫 链 可 以 相对 容易 地 计算 平衡 状态 分 布 ， 就 是 发 现 系 统 处 于 给 定 状态 的 长 期 概 
率 (long-term probability), Erlang 使 用 马尔 可 夫 链 将 电话 交换 系统 的 状态 描述 为 同时 进 
行 的 呼叫 数量 ， 以 此 就 可 以 计算 一 次 呼叫 损失 的 概率 。 

利用 马尔 可 夫 链 以 及 指数 分 布 的 到 达 和 服务 来 找到 排队 系统 中 的 平衡 状态 分 布 ， 这 
种 方法 是 非常 强大 的 。 该 方法 使 得 很 多 领域 的 排队 问题 都 能 顺利 解决 ， 如 交通 、 人 流 控 
制 、 库 存 控制 、 电 话 呼叫 、 制 造 业 、 医 院 管理 、 收 费 站 管理 等 。 

20 世纪 60 年 代 ， 计 算 机 设计 者 开始 将 排队 论 应 用 到 计算 机 系统 中 ， 进 行 网 络 和 分 时 
系统 的 能 力 规 划 ( capacity planning)。 能 力 规划 就 是 要 计算 需要 多 少 资 源 ， 才 能 避免 队列 
增长 过 长 ， 并 将 响应 时 间 限 定 在 可 接受 的 范围 。Leonard Kleinrock ( 1964 ) 在 其 博士 论文 
中 提出 了 预测 通信 网 络 中 消息 传输 延迟 的 模型 。 网 络 数据 包 在 经 由 各 路 由 器 最 终 到 达 目 的 
地 的 途中 经 历 了 很 多 的 排队 延迟 。Kleinrock 的 模型 (1975，1976 ) 已 经 在 ARPANET 的 
路 由 结构 优化 中 得 到 应 用 。 
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对 计算 机 系统 做 能 力 规划 要 难 很 多 。 组 成 计算 机 系统 的 网 络 节 点 是 计算 服务 器 ， 如 
CPU、 文 件 服务 器 、 输 入 -输出 服务 器 等 ， 而 不 是 路 由 器 。J. R. Jackson (1957) 提出 了 第 
一 个 针对 开放 计算 机 系统 网 络 的 模型 ， 其 中 所 有 服务 器 的 服务 时 间 都 呈 指 数 分 布 。 开 放 网 络 
(open network) 接受 每 一 个 到 达 ， 其 数量 会 不 断 变化 。 十 年 后 ，W. J. Gordon 和 G. F. Newell 
(1967 ) 针对 封闭 网 络 〈closed network) 解决 了 同样 的 问题 。 一 个 封闭 网 络 包 含 固定 数量 的 作 
业 (job)。 封 闭 网 络 很 普遍 。 例 如 ， 所 有 用 户 都 在 系统 边界 内 的 系统 ， 限 制 网络 中 数据 包 数 
量 的 网 络 协议 ， 或 者 在 一 个 作业 离开 时 外 部 调度 器 会 加 入 另 一 个 新 作业 的 系统 ， 这 些 都 是 封 
闭 网 络 。Jackson-Gordon-Newell 网 络 的 数学 结构 十 分 适合 各 种 计算 机 系统 。 和 遗憾 的 是 ， 对 他 
们 的 公式 进行 求解 的 已 知 算法 的 复杂 性 是 指数 级 的 ， 除 了 一 些小 型 系统 外 ， 对 于 所 有 其 他 系 
统 ， 该 解决 方案 都 有 不 可 逾越 的 难度 。 因 此 ，Jackson-Gordon-Newell 模型 几乎 没有 实用 价值 。 

这 个 状况 在 1973 年 有 了 变化 。 这 一 年 ，Jeffrey Buzen (1973 ) 发 现 了 Gordon-Newell 
方案 中 一 个 隐 含 的 结构 ， 并 给 出 了 一 个 可 以 在 二 次 方 阶 时 间 内 求解 的 算法 ， 而 不 是 原来 的 
指数 阶 时 间 。Buzen 的 算法 开启 了 一 个 新 时 代 ， 使 得 分 析 师 使 用 便携 计算 器 就 能 解决 很 多 
领域 中 系统 的 吞吐 率 和 响应 时 间 的 问题 。 同 时 也 引发 了 封闭 网 络 模型 预测 与 实际 系统 比较 
的 实验 研究 热潮 ， 其 结果 也 是 惊人 的 一 致 一 一 吞吐 率 的 偏差 在 测量 值 的 5% 以内， 而 响应 
时 间 则 在 25% 以 内 。 

两 年 以 后 , Forest Baskett, Mani Chandy, Richard Muntz 和 Fernando Palacios ( 1975 ) 
发 表 了 一 个 定理 〈 就 是 现在 大 家 所 熟知 的 BCMP 定理 )， 它 将 Jackson-Gordon-Newell 网 
络 泛 化 为 任意 路 由 、 服 务 分 布 以 及 多 类 作业 ， 只 要 所 有 服务 器 在 它们 的 队列 中 使 用 四 个 
基本 调度 规则 中 的 任意 一 个 。 这 四 个 调度 规则 是 先进 先 出 (FIFO)、 共 享 处 理 器 、 纯 延迟 
(pure delay)、 抢 占 式 后 来 先 服务 。Buzen 的 算法 也 随 该 模型 进行 了 泛 化 ， 使 得 实践 中 可 能 
遇 到 的 几乎 任何 网 络 都 可 以 拥有 快速 的 计算 方案 。Martin Reiser 和 Steve Lavenberg( 1980 ) 
很 快 发 现 了 一 个 新 算法 ， 可 以 直接 计算 吞吐 率 、 响 应 时 间 、 队 列 长 度 的 平均 值 ， 而 Buzen 
的 算法 并 不 能 直接 计算 这 些 平 均值 。 他 们 的 “均值 算法 ”已 经 成 为 排队 模型 计算 的 标准 。 

这 些 模型 的 成 功 暴 露 了 一 个 矛盾 。 计 算 机 系统 并 不 符合 传统 随机 模型 的 关键 假设 ， 特 别 
是 平衡 的 服务 分 布 和 指数 的 服务 分 布 。 然 而 ， 这 些 模型 可 以 很 好 地 预测 它们 的 吞吐 率 和 响应 
时 间 。 例 如 ， 计 算 机 系统 并 不 会 表现 出 平衡 性 一 一 它们 的 性 能 随 着 负载 而 变化 ， 而 不 同时 期 
负载 总 是 在 不 断 地 变化 。 性 能 分 析 人 员 发 现 ， 更 弱 的 流量 平衡 (flow balance) 假设 ， 即 到 达 
的 数量 和 完成 的 数量 相等 ， 可 以 导出 与 随机 平衡 相同 的 数学 公式 (Buzen 1976，Denning & 
Buzen 1977，1978 )。 在 很 多 计算 机 系统 的 很 多 时 间 间 隔 内 ， 都 非常 接近 流量 平衡 。 

计算 机 系统 网 络 的 另 一 个 异常 方面 ， 是 服务 的 分 布 通常 明显 不 是 呈 指 数 分 布 的 。 性 
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能 分 析 人 员 发 现 ， 更 弱 的 服务 器 独立 (server independence) 假设 ， 即 网 络 中 服务 器 的 输 
出 率 (output rate) 只 取决 于 本 地 队列 长 度 而 与 任何 其 他 服务 器 的 队列 无 关 ， 可 以 给 出 与 
随机 模型 相同 的 数学 公式 (Buzen 1976 , Denning & Buzen 1977, 1978 ) 。 在 很 多 计算 机 系 
统 的 很 多 时 间 间 隔 内 ， 服 务 器 独立 也 是 大 体 成 立 的 。 
结论 是 ， 排 队 论 的 经 典 假 设 可 以 被 流量 平衡 和 服务 器 独立 这 样 的 简单 假设 取代 ， 同 
时 仍然 可 以 产生 与 经 典 排队 网 络 模型 相同 的 公式 。 这 些 简单 的 假设 与 很 多 计算 机 系统 中 观 
察 到 的 很 接近 。 这 就 是 为 什么 排队 论 能 很 好 地 用 于 计算 机 系统 中 。' 


用 模型 计算 和 预测 


排队 模型 可 以 根据 负载 参数 (如 网 络 中 每 台 服 务 器 的 平均 服务 时 间 和 访问 数 )， 推 导出 
表示 性 能 指标 〈 如 吞吐 率 、 响 应 时 间或 拥塞 ) 值 的 公式 。 通 过 隐藏 系统 中 的 很 多 细节 ， 模 型 
提供 的 计算 性 能 指标 的 方法 比 直接 测量 快 很 多 。 分 析 人 员 通 过 比较 模型 的 计算 结果 和 实际 
运行 系统 中 测量 的 指标 值 来 验证 模型 ， 已 验证 的 模型 通常 能 避免 直接 测量 〈 如 图 9.1 所 示 )。 





图 9.1 已 验证 的 模型 使 得 系统 性 能 预测 变 得 可 行 。 系 统 和 其 负载 可 以 被 测量 以 获得 如 吞吐 率 和 响 
应 时 间 等 指标 的 实际 值 (图 的 中 部 )。 模 型 是 一 个 算法 ， 其 输入 是 负载 和 系统 的 测量 参数 ， 
其 输出 是 各 指标 的 计算 值 ( 图 的 上 部 )。 验 证 时 ， 将 模型 反复 地 与 不 同 的 系统 相 比较 ， 以 确 
认 该 模型 可 以 很 好 地 计算 指标 。 验 证 后 的 模型 可 用 于 预测 。 为 了 预测 未 来 的 指标 值 ， 分 析 
人 员 会 通过 询问 什么 会 改变 及 如 何 改变 来 修改 参数 。 之 后 该 模型 就 可 以 用 来 计算 预测 的 指 
标 (图 的 下 部 )。 因 为 模型 已 验证 ， 预 测 中 的 错误 最 有 可 能 是 修改 分 析 中 的 错误 导致 的 


到 目前 为 止 ,模型 最 常见 的 用 途 是 能 力 规划 。 设 计 者 利用 模型 来 评估 一 个 未 来 的 系 
统 能 否 满足 吞吐 率 和 响应 时 间 的 要 求 。 例 如 ， 它 们 可 以 计算 在 要 求 的 吞吐 率 和 响应 时 间 范 
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围 内 系统 可 以 承受 的 最 大 负载 ， 或 者 在 遇 到 瓶颈 时 需要 增加 多 少 处 理 能 力 才能 达到 目标 。 
它们 还 可 以 评估 规划 的 结构 改变 是 否 会 有 效 ， 例 如 一 个 规划 的 控制 系统 是 否 能 防止 性 能 
FUR 


服务 器 、 作 业 、 网 络 和 规则 


计算 机 网 络 是 一 组 互联 的 服务 器 。 服 务 器 可 以 是 工作 站 、 磁 盘 、 处 理 器 、 数 据 库 、 
打印 机 、 显 示 器 以 及 任何 其 他 可 以 执行 计算 任务 的 设备 。 每 个 服务 器 从 其 他 服务 器 接收 包 
含 指 定 任务 的 消息 ， 并 将 它们 排 成 队列 。 一 个 典型 的 消息 可 能 是 让 服务 器 运行 一 个 计算 密 
集 型 程序 ， 或 者 执行 一 个 输入 - 输出 事务 ， 或 者 访问 数据 库 。 作 业 是 向 网 络 提交 的 一 个 
特定 任务 序列 。 当 服务 器 完成 了 作业 中 的 某 个 任务 ， 会 将 其 从 任务 队列 中 删除 ， 并 发 送 消 
息 给 另 一 个 服务 器 ， 请 求 它 执行 同一 个 作业 中 的 下 一 个 任务 。 这 样 ， 作 业 在 网 络 中 流动 ， 
每 次 访问 一 个 服务 器 。 

我 们 的 目标 是 ， 对 于 这 样 一 个 给 定 了 工作 负载 〈 作 业 ) 和 系统 (互联 的 服务 器 ) 参数 
的 计算 机 网 络 ， 预 测 其 性 能 指标 (如 吞吐 率 和 响应 时 间 )。 

服务 器 的 测量 通常 是 在 一 个 确定 的 观察 期 中 进行 ， 该 观察 期 持续 了 秒 。 我 们 来 看 看 
在 观察 期 中 ， 该 如 何 测量 各 种 参数 并 找到 将 它们 关联 到 指标 的 公式 。 

通过 统计 向 外 发 出 的 消息 数量 ， 并 测量 服务 器 队列 的 非 空 时 间 ， 可 以 很 容易 测量 出 
服务 器 的 输出 率 X、 平 均 服务 时 间 S 以 及 利用 率 Us 这 三 个 实测 量 满足 关系 U = SX， 被 称 
为 利用 率 法 则 (utilization law)( 如 图 9.2 所 示 )。 


服务 器 





T, n(t) 


图 9.2 一 个 单 服务 器 系统 由 一 个 处 理 器 和 一 个 等 待 服务 的 作业 队列 (存储 区 域 ) AM FE“ TE 
的 观察 期 内 ，4 个 作业 到 达 并 加 入 到 队列 中 ，C 个 作业 完成 服务 并 离开 队列 。 系 统 的 状态 
n(t) 是 在 1 时 刻 系统 内 服务 中 或 等 待 服务 的 作业 数量 。 作 业 到 达 时 状态 增加 ， 作 业 完 成 时 状 
SRL. Kne) > 0 时， 系统 繁忙 ， 当 n(?) = 0 时 ， 系 统 空闲。 计时 器 B 记录 了 处 理 右 的 总 
的 繁忙 时 间 。 服 务 器 的 利用 率 U= B/T, SEMA X= C/T, 已 完成 作业 的 平均 服务 时 间 S= B/ 
Co AA BIT = (C/T)(B/C), 我们 得 到 利用 率 法 则 : U = SX, AA UATE IK, BUX 
不 可 能 大 于 1/S$， 这 意味 着 完成 率 不 能 快 于 每 个 平均 服务 时 间 完 成 一 个 作业 
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类 似 地 ， 通 过 测量 由 队列 任务 累加 的 “作业 时 间 ”， 可 以 很 容易 得 到 平均 队列 长 度 O 
和 平均 响应 时 间 R: 这 些 量 满足 关系 O= RX， 被 称 为 利 特 尔 法 则 (Little’s law, 1961 )( 如 
图 9.3 所 示 ) ?。 





ie 


n(t) 


作业 ， 





9.3 ”服务 器 的 平均 队列 长 度 和 平均 响应 时 间 可 以 通过 计算 观察 期 内 n(?) 曲线 下 面 的 阴影 面积 W 
得 出 。 丈 是 系统 中 所 有 作业 累加 的 作业 -E (job-seconds) 数 。 例 如 ， 一 个 在 队列 中 等 待 了 
10 秒 之 后 收 到 了 2 秒 服务 的 作业 产生 了 12 个 作业 - 秒 。 丈 相当 于 房地产 代理 计算 房租 时 
使 用 的 “平方 英尺 -月 ”, 或 者 项 目 经 理 计算 人 工 费 时 使 用 的 “人 一 月 ”。 服 务 器 的 平均 作 
业 数 是 O= WT， 即 曲线 的 平均 高 度 。 平 均 响应 时 间 是 R= W/C， 即 将 下 分 挫 到 所 有 完成 
的 作业 。 因 为 WT= (C/T)(W/C)， 所 以 我 们 有 了 利 特 尔 法 则 : O= RX, 平均 服务 时 间 S 和 平 

均 响应 时 间 R 不 同 ,，R 包括 排队 延迟 和 服务 时 间 
利 特 尔 法 则 是 一 个 非常 重要 的 公式 ， 适 用 于 任何 满足 下 面条 件 的 情况 : 一 个 可 以 容纳 
项 目 (itm) 的 黑 盒 子 ， 盒 中 有 一 定 的 响应 时 间 ， 有 一 个 项 目 流 穿 过 这 个 盒子 。 考 虑 一 个 简 
单 的 例子 : 一 家 餐馆 的 主人 出 售 高 档 酒 ， 每 年 平均 每 天 销售 二 十 瓶 高 档 酒 。 她 想 在 供应 给 
顾客 前 使 每 瓶 酒 都 陈 化 十 年 ， 她 需要 一 个 多 大 的 酒 窘 ? 显然 ， 每 年 好 必须 能 够 提取 出 7300 = 
365 x 20 HRI, FAL 10 年 的 陈 酒 将 需要 容纳 73 000 瓶 的 酒 窘 。 她 的 计算 实际 上 使 用 了 利 特 尔 


法 则 : 





73 000=O=RK=(10 年 )(7300 瓶 /年 ) 

组 成 作业 的 任务 可 以 被 看 做 是 作业 对 网 络 中 各 服务 器 的 一 个 访问 序列 。 每 个 作业 
中 对 某 个 服务 器 i 的 平均 访问 次 数 称 为 对 该 服务 器 的 访问 率 ( visit ratio)， 记 作 V: ; 该 服 
务 器 的 输出 率 钱 和 整个 系统 网 络 的 输出 率 X 满 足 关系 和 Y= 所 X， 这 就 是 限制 流量 法 则 
( forced-flow law) (如 图 9.4 所 示 )。 这 一 重要 的 法 则 表明 ， 只 要 知道 所 有 的 访问 率 以 及 
任何 一 个 服务 器 的 输出 率 就 足以 确定 所 有 其 他 服务 器 的 输出 率 及 整个 系统 网 络 本 身 的 输 
出 率 。 该 法 则 与 服务 器 之 间 如 何 互联 无 关 ， 任何 两 个 访问 率 相 同 的 系统 网 络 具 有 相同 的 
流量 。 
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图 9.4 穿 过 服务 器 网 络 的 作业 流 可 以 用 访问 率 来 表示 。 出 人 口 是 作 业 进 出 系统 的 指定 点 。 如 果 系 
统 中 的 作业 数 可 以 变化 则 系统 是 开放 的 ， 如 果 作 业 数 固定 则 系统 是 封闭 的 (加 入 跨 过 出 入 口 
的 虚线 )。 灰 色 路 径 显 示 了 一 个 作业 是 如 何 访问 服务 器 的 ; 这 里 ， 该 作业 访问 了 服务 器 一 
次 ,访问 了 服务 器 i 和 j 各 两 次 。 在 一 个 时 间 长 度 为 7 的 观察 期 内 ， 在 各 服务 器 上 测量 各 自 
的 完成 数 CC、C 和 Ct， 在 系统 出 入 口 处 测量 总 的 完成 数 C。 服 务 器 i 中 每 个 作业 的 平均 任 
务 数 是 V= CVC， 斤 被 称 为 访问 率 ， 这 是 因为 每 个 任务 都 被 看 作 是 作业 对 服务 器 的 一 次 “ 访 
问 ”。 恒 等 式 C/T = (Ci/C)(C/7) 就 化 为 限制 流量 法 则 : X= VX. 该 法 则 表示 系统 中 一 个 点 
的 任务 流 决定 了 各 处 的 任务 流 

作为 流量 平衡 的 一 个 条 件 ， 假 设 服务 器 的 输入 和 输出 流 是 相同 的 ， 这 可 以 使 分 析 变 
得 更 简单 。 平 衡 的 流量 就 是 吞吐 率 。 上 述 的 各 基本 量 和 法 则 并 不 依赖 于 也 不 意味 着 流量 平 
衡 。 尽 管 如 此 ， 对 实际 系统 来 说 ,流量 平衡 仍 是 一 个 非常 接近 真实 情况 的 假设 。 由 于 同时 
存在 系统 中 的 作业 数 会 有 一 个 限制 N， 因 此 在 观察 期 内 的 初 态 和 终 态 之 间 可 能 出 现 的 最 大 
差异 就 是 N; 只 要 每 台 服 务 器 的 完成 数 都 比 N 大 ， 由 流量 平衡 假设 而 引起 的 误差 就 可 以 
忽略 。 

当 服 务 器 网 络 从 有 限 的 个 用 户 那里 接收 对 其 发 出 的 全 部 请 求 ， 在 提交 一 个 新 事务 
之 前 ， 每 个 用 户 平均 延迟 Z 秒 ， 网 络 中 每 个 请 求 的 响应 时 间 满 足 响应 时 间 法 则 ( response- 
time law) R= N/X - Z (如 图 9.5 所 示 )， 这 对 流量 平衡 而 言 是 非常 精确 的 。 

这 些 公式 足以 回答 本 章 开头 提出 的 关于 航空 订 票 网 的 吞吐 率 和 响应 时 间 问 题 。 我 们 
可 以 把 之 前 给 出 的 目录 磁盘 相关 的 信息 表示 为 V =10, S: = 0.005 b, U: = 0.8。 结 合 限制 
流量 法 则 和 利用 率 法 则 ， 可 以 得 出 系统 的 总 吞吐 率 : 

X = U;/(V;S)) = 0.8/(10 x 0.005) = 16 个 作业 每 秒 
也 即 每 小 时 达到 57 600 个 作业 。1000 个 代理 中 的 任何 一 个 体验 到 的 响应 时 间 是 : 
R = N/X- Z = 1000/16 — 60 = 2.5 # 
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思考 者 等 待 者 


图 9.5 计算 机 系统 的 用 户 交 替 处 于 “思考 ”阶段 和 “等 待 ”系统 响应 阶段 。 封 闭 系统 的 用 户 总 
数 一 一 思考 者 和 等 待 者 一 一 固定 为 N。 每 个 事务 的 平均 响应 时 间 是 RR, 平均 思考 时 间 是 Zo 
将 利 特 尔 法 则 应 用 到 思考 者 方 框 ， 可 以 得 到 其 平均 队列 长 度 Q = ZX。 将 利 特 尔 法 则 应 用 到 
等 待 者 方 框 ， 可 以 得 到 其 平均 队列 长 度 OQ. = RX, AW Qi 和 O 的 和 是 定 值 N,， 则 N= (R + 
Z) Xs 求解 RR 可 以 得 到 响应 时 间 法 则 : R= MX- Z。 该 公式 假设 流量 平衡 
我 们 并 不 需要 去 直接 测量 吞吐 率 和 响应 时 间 ， 因 为 通过 一 些 简 单 的 测量 值 就 可 将 它 
们 准确 地 计算 出 来 。 如 果 将 这 些 计算 结果 与 相同 观察 期 内 的 实际 系统 相 比 较 (如 图 9.1 所 
示 )， 它 们 会 是 很 准确 的 。 然 而 ， 在 未 来 的 一 段 时 期 内 ， 它 们 可 能 并 不 准确 ， 因 为 未 来 所 
需 的 参数 与 现在 的 参数 可 能 不 同 了 。 
我 们 刚刚 结束 了 排队 网 络 中 最 困难 的 部 分 一 一 学 习 了 服务 器 的 6 个 基本 原始 量 、5 个 
指标 和 4 条 法 则 。 我 们 把 它们 归纳 在 表 9.1、 表 9.2 和 表 9.3 中 。 


表 9.1 服务 器 的 基本 原始 量 


符号 描述 

T 观察 期 

4 到 达 数 

B 服务 器 总 的 繁忙 时 间 

C 完成 数 

n(t) 在 上 时 刻 系统 内 服务 中 或 等 待 服务 的 作业 数 ， 也 称 为 队列 长 度 
W 观察 期 内 函数 n(?) 曲线 下 的 面积 


表 9.2 服务 器 的 基本 性 能 指标 


符号 描述 
x 完成 率 (作业 数 / 秒 ) 
U 服务 器 利用 率 ( 忙 时 的 比例 ) 
S BIC 平均 服务 时 间 (E) 
Q 平均 队列 长 度 (作业 数 ) 
R WIC 每 个 作业 的 平均 响应 时 间 ( 秒 ) 
y, 服务 器 i 的 访问 率 
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表 9.3 运算 法 则 
法 则 公式 

利用 率 法 则 U=SX 

利 特 尔 法 则 O=RX 

限制 流量 法 则 X= VX 

响应 时 间 法 则 R=NIX-Z 

瓶颈 


关于 航空 订 票 系统 后 面 两 个 问题 ， 是 问 在 未 来 的 观察 期 内 ， 如 果 条 件 发 生变 化 ， 其 
响应 时 间 该 如 何 估算 一 一 例如 ， 目 录 磁 盘 的 访问 率 减少 ， 或 者 代理 数 增加 。 因 为 运算 法 则 
只 处 理 同 一 观察 期 内 各 观察 量 之 间 的 关系 ， 它 们 并 不 足以 来 做 预测 。 我 们 必须 引入 额外 的 
预测 假设 (forecasting assumption)。 根 据 过 去 观察 期 测量 到 的 参数 值 ， 这 些 假设 可 以 推断 
出 未 来 观察 期 所 需 的 参数 值 ， 然 后 运算 法 则 就 可 以 用 于 计算 未 来 时 期 内 预期 的 响应 时 间 
参见 图 9.1 ) 。 

一 种 常见 的 预测 假设 是 : 除非 特别 说 明 ， 对 于 不 同 服务 器 的 需求 ( 即 每 个 服务 器 的 
访问 率 ) 记 ， 在 未 来 观察 期 内 其 值 和 基准 观察 期 内 的 相等 。 类 似 地 ， 除 非特 别 说 明 ， 主 要 
取决 于 设备 机 械 和 电气 特性 的 平均 服务 时 间 5; 也 保持 不 变 。 而 当 其 中 有 任何 参数 改变 时 ， 
利用 率 、 吞 吐 率 和 响应 时 间 都 将 会 发 生变 化 。 

回 到 前 面 的 问题 : 当 使 用 一 个 新 的 磁盘 索引 算法 后 ， 目 录 磁 盘 的 访问 率 从 10 下 降 到 
5， 这 会 导致 什么 变化 ? 这 取决 于 目录 磁盘 是 否 是 系统 的 瓶颈 。 如 果 不 是 ， 另 外 的 一 些 服 
务 需 就 会 是 系统 瓶颈 ， 大 部 分 作业 将 会 在 那里 排队 ， 其 利用 率 将 会 接近 100%。 这 种 情况 
下 ， 降 低 对 目录 磁盘 的 请 求 只 会 对 瓶颈 磁盘 的 利用 率 和 吞吐 率 带 来 轻微 的 影响 ， 限 制 流量 
法 则 告诉 我 们 ， 整 个 网 络 的 总 体 知 吐 率 和 响应 时 间 并 不 会 因此 而 改变 。 

如 果 目 录 磁 盘 是 瓶颈 ， 基 于 限制 流量 法 则 ， 我 们 可 以 推测 ， 将 对 甚 的 请 求 降低 一 半 
会 使 系统 吞吐 率 翻 番 。 但 是 该 推测 产生 了 一 个 可 笑 的 结果 : 对 于 上 面 给 定 的 数据 ， 通 过 公 
式 算出 的 响应 时 间 是 -28.75 秒 。 负 的 响应 时 间 明 显 是 荡 雇 的 一 一 意味 着 在 问题 提出 之 前 
就 有 了 答案 一 一 这 表明 当 目录 磁盘 上 的 请 求 降低 一 半 后 ， 它 就 不 会 是 瓶颈 了 ， 即 使 它 原先 
是 瓶颈 。 就 已 有 的 信息 和 已 给 出 的 预测 假设 ， 我 们 所 能 说 的 是 ， 对 目录 磁盘 的 请 求 降 低 一 
半 将 会 使 响应 时 间 从 2.5 秒 降低 到 某 个 较 小 的 非 零 非 负 值 。 如 果 2.5 秒 的 响应 时 间 已 经 是 
可 以 接受 的 ， 则 这 个 改进 的 目录 检索 策略 将 不 具有 成 本 效益 。 

回 到 前 面 的 最 后 一 个 问题 : 如果 代理 的 数量 翻番 ， 响 应 时 间 会 有 何 变化 。 同 样 ， 我 
们 受 限于 缺少 其 他 服务 器 的 信息 。 若 目录 磁盘 是 瓶 贷 ,那么 代理 数 翻 番 可 能 会 使 其 利用 率 
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达到 100%， 由 此 可 以 得 到 吞吐 率 的 饱和 值 : 
X = 1/(V,S)= 1/(10 x 0.005) = 20 个 事务 每 秒 
应 用 响应 时 间 法 则 ， 我 们 可 以 得 到 此 时 的 响应 时 间 : 
R = N/X — Z = 2000/20 — 60 = 40 # 

QAR A EAR AN EHR, HSL ft SEE A BG eA BE | BY A eS, Eg 
间 超 过 40 秒 。 因 此 ， 代 理 数 翻番 将 会 使 得 响应 时 间 长 得 令 人 难以 接受 。 

这 个 例子 表明 ， 在 预测 吞吐 率 和 响应 时 间 时 ， 瓶 颈 分 析 是 一 个 不 可 避免 的 主题 (如 图 
9.6 所 示 )。 假 设 所 有 服务 器 的 访问 率 和 平均 服务 时 间 都 是 已 知 的 ， 并 且 不 随 W 变 化 。 每 
一 台 服 务 器 会 产生 潜在 的 瓶颈 ， 使 得 系统 的 吞吐 率 被 限制 到 1/(7 5S;)， 并 且 响 应 时 间 达 到 
NV Si- ZØ TFF. BAVS 值 最 大 的 服务 器 具有 吞吐 率 的 最 小 上 界 ， 也 就 是 真正 的 瓶颈 
FEE o VS: 的 乘积 就 是 我 们 确定 网 络 瓶 颈 所 需要 的 全 部 信息 。 





一 一 


响应 时 间 R (N) 





图 9.6 瓶颈 分 析 展 示 了 响应 时 间 随 六 变化 的 函数 。 当 N = 1 时 ,单一 用 户 的 作业 并 不 会 遇 到 由 其 
他 事务 引起 的 排队 延迟 ， 因 此 RO) = VS +…+ xsk， 其 中 天 是 服务 器 的 数量 。 结 合 利用 
率 法 则 和 限制 流量 法 则 ， 因 为 Vi < 1, WAX = XIV = UVS) < VS). Alt, Sara 
的 i，R(N) > NViSi -2Z。 当 N 较 大 时 ， 这 些 关 系 确定 的 每 一 条 线 (如 1、2、3 ) 都 是 RIN) 
潜在 的 渐 近 线 。 实 际 的 渐 近 线 ( 粗 线 ) 是 由 最 大 的 那 根 潜在 渐 近 线 ( 线 1 ) 确定 。 假 设 服务 
器 被 编号 ， 使 得 VS) ERAK, VS. 是 第 二 大 的 ， 等 等 ， 则 服务 器 1 是 瓶颈 ， 并 且 R(N) > 
NVS- Z。 瓶 颈 分 析 假 定 V:S: 的 乘积 不 随 N 变化 


瓶颈 分 析 是 一 种 简单 但 非常 有 效 的 计算 吞吐 率 和 响应 时 间 的 限制 渐 近 线 (limiting 
asymptote) 的 方法 。 瓶 颈 所 在 始终 是 请 求 总 量 (Vi Si) 最 大 的 服务 器 。 不 管 W 值 是 大 还 是 
小 ， 下 界 R(1) A NVS -2Z 可 以 相当 接近 。 这 些 渐 近 线 和 实际 的 RN) 之 间 的 最 大 的 误差 
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发 生 在 渐 近 线 与 横 轴 相交 处 ， 即 N = Z/(V1S1)。 为 了 获得 某 个 负载 下 更 精确 的 结果 ， 我 们 
必须 借助 于 接 下 来 所 介绍 的 计算 算法 。 


平衡 方程 
平衡 方程 是 对 排队 系统 进行 更 精确 分 析 的 必 备 工具 ， 从 Erlang (1917) 以 来 的 排队 


论 理论 科学 家 都 用 过 平衡 方程 。 我 们 将 就 单一 服务 器 系统 来 介绍 这 个 方法 。 在 后 面 的 讨论 
中 请 参考 图 9.7。 


a(0) a(l) a(2) a(n-2) a(n-1) a(n) a(N-1) 
: c(1) i c(2) : c(3) w EC c(n) c(n+1) rs c(N) ， 
向 下 
向 上 


图 9.7 对 单一 服务 器 系统 的 状态 空间 分 析 引出 了 平衡 方程 。 图 中 是 可 容纳 N 个 作业 的 单一 服务 器 
系统 的 状态 空间 。a(n) 是 系统 在 状态 n 时 的 到 达 数 ，c(n) 是 系统 在 状态 n 时 的 完成 数 。 平 衡 
意味 着 系统 的 初始 状态 和 结束 状态 是 相同 的 ， 也 就 是 说 从 状态 n-1 向 上 的 转换 数 和 向 下 到 
达 状 态 n-1 的 转换 数 相同 。 换 句 话 说 ，a(n-1) =c(n) 
第 一 步 是 定义 系统 的 状态 。 对 于 单一 服务 器 ， 其 状态 是 x(D ， 指 服务 器 上 的 作业 数 。 
对 于 大 部 分 真实 系统 来 说 ， 服 务 器 能 容纳 的 作业 数 都 会 有 一 个 上 界 N。 因 此 ， 状 态 分 别 是 
0 ls 2y rey Na 
第 二 步 是 定义 状态 之 间 的 允许 的 转换 。 例 如 ， 当 系统 在 状态 3 时 ， 一 个 到 达 将 会 使 
其 状态 变 为 4， 而 两 个 同时 的 到 达 则 会 使 其 状态 变 为 5。 对 大 部 分 真实 系统 来 说 ， 到 达 和 
完成 必然 是 不 同 的 事件 。 我 们 将 同时 的 到 达 建 模 为 时 间 上 非常 近 的 一 系列 到 达 。 因 此 , 我 
们 能 看 到 的 状态 变迁 就 是 : 在 到 达 时 的 “向 上 加 1” 以 及 在 完成 时 的 “向 下 减 1”; 同时 服 
从 约束 ， 即 状态 N 时 不 能 向 上 ， 状 态 0 时 不 能 向 下 。 
第 三 步 是 根据 流量 平衡 写 一 个 平衡 方程 。 流 量 平衡 意味 着 在 一 个 观察 期 内 系统 的 结 
束 状态 和 初始 状态 相同 ， 也 就 是 n(0) = n(7)。 在 这 种 情况 下 ， 从 任何 状态 n-1 向 上 的 转换 
数 与 向 下 到 达 状 态 n-1 的 转换 数 是 相等 的 : 
a(n — 1)= c(n) 
这 与 下 面 的 方程 等 价 : 
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a(n-1) T(n=1) _ én) Tn) 
T(n-1) T Tn) T 


左边 的 第 一 项 定义 为 4(n-1)， 这 是 系统 处 于 状态 n-1 时 的 到 达 率 。 右 边 的 第 一 项 定 
LH uN), 这 是 系统 处 于 状态 n 时 的 完成 率 。 左 边 和 右边 的 第 二 项 都 是 p(n) 的 实例 ， 而 
p(n) 是 系统 处 于 状态 n 的 时 间 比 例 。 因 此 ， 我 们 有 平衡 方程 : 

A(n — 1)p(n — 1) = u(n)p(n) 
或 
pin) = pin 1) 

所 有 p(n) 实例 的 和 为 1， 结合 这 一 点 ， 该 平衡 方程 可 以 在 电子 表格 上 很 容易 地 解 出 
来 ”*。 该 方程 表明 ， 到 达 率 和 完成 率 完全 决定 了 一 个 流 平衡 系统 ( flow-balanced system) 
处 于 任 一 状态 的 时 间 比 例 。 

一 旦 得 到 p(n) 的 解 ， 我 们 可 以 看 到 ; 服务 器 的 利用 率 可 以 很 简单 地 算出 来 : U= 1 - 
p(0)。 而 服务 器 的 完成 率 ， 我 们 可 以 用 每 个 状态 n 的 完成 率 的 加 权 平 均 来 计算 : 


X= un)p(n) 
我 们 可 以 用 处 于 状态 ”的 概率 的 期 望 值 来 计算 平均 队列 长 度 : 


Q= > np(n) 

响应 时 间 则 可 以 用 利 特 尔 法 则 来 计算 : R= QO/X。 

这 些 计 算 与 标准 排队 论 (standard queueing theory) 在 数学 上 是 完全 相同 的 ， 但 是 依 
赖 于 不 同 的 假设 。 在 标准 排队 论 中 ，p(n) 是 观察 到 系统 处 于 状态 n 的 长 期 平衡 概率 (long- 
term equilibrium probability)。 而 这 里 ，p(n) 是 系统 被 观察 到 处 于 状态 n 的 时 间 比 例 。 如 
果 系 统 是 流 平衡 的 ， 则 该 值 是 准确 的 ; 与 N 相 比 ， 如 果 系 统 有 很 多 到 达 或 完成 ， 则 该 值 
是 一 个 好 的 近似 值 。 这 就 是 为 什么 标准 排队 论 的 平衡 公式 在 真实 计算 机 系统 中 也 可 以 很 好 
地 工作 的 原因 。 

我 们 以 三 个 不 同 的 计算 机 系统 配置 为 例 来 说 明 该 方法 。 


ATM 


银行 的 ATM 看 起 来 是 一 个 单一 的 服务 器 ， 其 队列 长 度 不 超过 N， 即 ATM 等 待 区 域 
的 大 小 。 不 管 队列 有 多 长 ， 潜 在 的 用 户 数 很 大 使 得 总 的 到 达 率 是 稳定 的 。 在 这 种 情况 下 ， 
到 达 率 是 4(n) =A; 服务 率 是 hw， 因为 每 次 只 有 一 个 用 户 被 服务 。 则 平衡 方程 为 : 
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p(n) = perl) 
图 9.8 展示 了 使 用 电子 表格 求解 该 平衡 方程 的 结果 。 





0 国画 本 mm mm mm es 
1 

系统 中 的 数目 

图 9.8 ”使 用 电子 表格 ， 可 以 得 到 ATM 的 最 大 队列 长 度 N= 16 Ar = Au 取 不 同 的 值 时 ，p(n) 的 分 
布 图 。 这 里 的 图 是 > = 2/3 时 的 p(n) 的 分 布 。 因 为 4<4， 因 此 该 图 严重 向 小 队列 偏 置 : 队列 
长 度 小 于 等 于 2 的 时 间 占 70%， 空 闲 时 间 占 33%。 当 到 达 率 和 完成 率 的 值 反 过 来 (r = 1.5 )， 
会 形成 一 幅 镜 像 的 分 布 图 (图 未 给 出 )， 表 明 系 统 在 70% 的 时 间 里 有 14 个 或 以 上 的 用 户 在 
排队 ， 且 没有 空闲 时 间 。 当 到 达 率 和 完成 率 相 同 (xr = 1 )， 所 有 条 形 高 度 相 同 ; 所 有 16 种 
队列 长 度 的 可 能 性 相同 ， 系 统 有 6% 的 空闲 时 间 


电话 交换 机 


这 是 A. K. Erlang Æ 1917 年 研究 的 问题 。 电 话 交 换 机 的 状态 nn 是 进行 中 的 通话 数 
量 。 设 备 的 局 限 将 同时 通话 数 限制 为 N。 当 状态 为 N 时 ,试图 拨打 电话 的 用 户 将 会 被 拒 
绝 。 因 为 用 户 数量 很 大 ， 在 所 有 状态 下 到 达 率 都 是 稳定 的 4。 一 次 通话 的 平均 持续 时 间 
是 luo TERA nit, A n PATE AT EAT, IN A oe RE nx。 得 到 的 平衡 方 
程 为 : 


p(n) = pon ~ 1) 
Erlang 的 设计 中 的 问题 是 如 何 选择 N( 即 交换 能 力 )， 使 得 用 户 被 拒绝 的 可 能 性 低 到 
BG 可 以 接受 。 例 如 ， 把 可 接受 的 呼 损 率 设置 为 0001， 这 意味 着 我 们 要 找到 一 个 V 值 使 得 
187| p(N) < 0.001。 图 9.9 展示 了 使 用 电子 表格 求解 该 平衡 方程 的 结果 。 
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图 9.9 使 用 电子 表格 ,得 到 了 电话 交换 问题 中 当 通 话 数 最 大 值 N= 16 H r= Au = 1 时 的 p(n) 的 分 
布 图 。 该 图 表明 交换 机 在 半 满 状态 时 有 很 强 的 偏好 性 。 该 交换 机 很 少 空 闲 并 具有 较 小 的 呼 
损 率 p(16) = 0.005 


分 时 系统 


MIT 的 Allan Scherr(1965) 为 兼容 分 时 系统 ( Compatible Time-Sharing System, CTSS) 
建立 了 一 个 性 能 模型 ， 可 以 以 惊人 的 准确 度 来 预测 系统 的 吞吐 率 和 响应 时 间 。 他 使 用 了 排 
队 论 中 一 个 叫做 机 器 修理 工 (machine repairman) 的 模型 ， 其 按 下 述 方式 工作 : 在 车 间 里 ， 
一 个 修理 工 为 N 台 机 器 服务 ， 这 些 机 器 各 自 按 4 的 比率 发 生 故 障 ， 每 修复 一 台 机 器 平均 需 
要 1u 的 时 间 。 系 统 的 状态 是 排队 等 待 修复 的 故障 机 咒 数 量 。 将 该 模型 转换 到 分 时 系统 : N 
表示 用 户 数量 ， 修 理工 变 成 平均 服务 时 间 是 1 的 CPU， 机 器 则 变 成 各 自 需 要 思考 1/4 时间 
的 用 户 。 在 这 种 情况 下 ， 对 于 处 在 状态 n 的 CPU， 其 到 达 率 是 4(n) = (N-n, HAK nS 
用 户 在 等 待 CPU 时 ,Nn 个 用 户 在 思考 。 因 为 同时 只 能 处 理 一 个 作业 ， 状 态 n 的 完成 率 是 
u(n) = 4X。 此 时 的 平衡 方程 是 : 





(N-n+1) 
paj=prn=1) _* 


Scherr 通过 向 CTSS 操作 系统 的 内 核 中 插入 探 针 来 捕获 作业 开始 和 结束 事件 记录 、 对 
CPU 队列 长 度 和 响应 时 间 进 行 采 样 ， 来 验证 他 的 模型 。 他 将 获得 的 数据 与 模型 计算 的 结 
果 相 比较 ， 确 认 模 型 很 好 地 预测 了 CTSS 系统 的 吞吐 率 和 响应 时 间 。 

Scherr 的 结果 出 乎 很 多 人 的 预料 ， 他 们 不 相信 这 么 一 个 简单 的 模型 能 够 很 好 地 估计 复 

杂 分 时 系统 的 吞吐 率 和 响应 时 间 。 
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用 模型 来 计算 


作为 建 模 过 程 中 的 最 后 步 又， 我 们 希望 将 模型 扩展 到 任何 排队 网 络 。 像 之 前 一 样 ， 
我 们 需要 定义 系统 的 状态 和 它们 的 平衡 方程 。 一 个 有 天 个 服务 器 的 网 络 ， 其 状态 比 单一 
服务 器 要 更 复杂 。 一 个 状态 可 以 用 一 个 向 量 来 表示 ， 向 量 中 的 分 量 表示 天 个 服务 器 中 每 
一 个 服务 器 的 作业 数量 。 图 9.10 显示 了 机 票 预 订 系 统 的 一 个 模型 ， 以 及 当 和 N= 2 时 ， 其 
可 能 的 10 个 状态 。 





N=2 


(79,7 n,n 3) 


图 9.10 该 模型 把 机 票 预定 系统 表示 成 4 个 服务 器 : 代理 、CPU、 目 录 、 数 据 。 当 NN = 2 时 ， 该 系 
RA 10 个 可 能 的 状态 ， 如 图 右 侧 所 列 。 每 个 状态 的 分 量 之 和 N 必须 等 于 2。 例 如 ， 状 态 
(2, 0, 0, 0 表示 两 个 用 户 都 在 思考 ， 所 有 服务 器 都 空闲 。 状 态 (0，1，0，1) 表示 一 个 用 
户 的 作业 正在 CPU 上 处 理 ， 另 一 个 用 户 的 作业 在 数据 磁盘 服务 器 上 运行 














每 个 状态 的 平衡 方程 表示 观察 期 内 进入 该 状态 的 转换 数 等 于 离开 的 数量 。 很 不 幸 的 
是 ， 状 态 的 数量 是 随 用户 数 W 和 服务 器 数 玉 呈 指 数 增长 的 。 图 9.10 中 的 模型 在 N= 2 时 
有 10 个 状态 ; 当 N= 10 时 ， 有 2286 个 状态 ; 当 N= 100 时 ， 则 有 176 851 个 状态 。 对 于 
一 个 有 数 千 个 用 户 和 服务 器 的 网 络 来 说 ， 其 平衡 方程 的 数量 非常 巨大 ， 很 难 获得 求解 它们 
的 计算 方案 。” 

Jeff Buzen (1973) 发 现 了 一 种 方法 ， 可 在 O (NK) 步 内 从 该 模型 中 计算 出 基本 的 指标 。 
他 的 发 现 是 性 能 分 析 的 一 个 重要 突破 。 几 年 之 后 ，Martin Reiser 和 Steve Lavenberg (1980) 发 
现 了 一 个 稍微 好 一 些 的 算法 。 由 于 该 算法 直接 计算 响应 时 间 、 吞 吐 率 、 队 列 长 度 的 平均 值 ， 
他 们 的 方法 被 称 为 均值 分 析 (Mean Value Analysis, MVA), X 9.4 对 这 一 方法 进行 了 总 结 。 


表 9.4 均值 方程 







当 一 个 作业 到 达 服 务 器 i, 它 看 到 的 队列 与 当 系 统 中 的 作业 少 
(1) Ri(N)= Si(1+ Qi(N 一 1))， 对 所 有 的 i | 一 个 时 外 部 观察 者 看 到 的 基本 相同 。 其 响应 时 间 是 它 到 达 后 队列 
中 的 每 个 作业 都 被 服务 一 次 的 时 间 


HE KK 151 


(  ) 
方程 释义 
(2) RN= 之 VR(N) 对 服务 器 i 的 每 次 访问 会 积累 一 个 本 地 响应 时 间 
N 
(3) X(N)= Ry +Z 将 利 特 尔 法 则 应 用 到 循环 执行 “思考 - 等 待 ” 周 期 的 总 时 间 
(4) Oi(N) = X(N)VRi(N)， 对 所 有 的 i 将 利 特 尔 法 则 应 用 到 每 个 服务 器 


这 些 方程 给 出 了 服务 器 的 响应 时 间 R;(N)、 系 统 响 应 时 间 RCN), AB SC FF He 48 X(N)、 
服务 器 队列 长 度 Q;(N)。 方 程 巧 妙 地 通过 之 前 负载 为 N-1 时 计算 的 队列 长 度 ， 构 造 了 负载 
为 N 时 的 各 个 量 。 均 值 算法 在 N= 1,2,3,… 时 依次 计算 四 个 方程 ， 直 到 所 需 的 Y 值 为 止 。 

经 过 观察 ， 你 很 快 就 能 发 现 表 9.4 中 的 方程 2 只 是 一 个 根据 服务 器 响应 时 间 计 算 系 统 
响应 时 间 的 运算 法 则 。 方 程 3 是 响应 时 间 法 则 ， 而 方程 4 是 利 特 尔 法 则 0; = Ri X; SBR iil 
流量 法 则 总 = ViX ABA. WAT FE 1 呢 ? 

方程 1 不 是 一 个 法 则 ， 而 是 基于 以 下 简单 想法 的 一 个 近似 估算 。 当 一 个 作业 到 达 服 务 
器 时 ， 它 会 加 入 一 个 长 度 为 大 的 队列 ， 队 列 长 度 增加 为 上 + 1。 队 列 中 的 每 一 个 作业 ， 包 
括 它 自 身 ， 需 要 平均 S 秒 的 服务 时 间 。 因 此 ， 响 应 时 间 是 R=S (k++ 1)。k 应 该 取 什 么 值 ? 

Reiser 和 Lavenberg 从 到 达 定 理 (arrival theorem) 中 得 到 了 答案 。 该 定理 认为 当 一 个 
作业 到 达 时 ， 服 务 器 的 队列 长 度 与 当 系 统 中 少 一 个 作业 (该 作业 本 身 ) 时 外 部 观察 者 所 
看 到 的 一 样 。 换 句 话 说 ， 到 达 服 务 器 的 作业 充当 了 外 部 观察 者 。 因 此 ,的 期 望 值 就 是 
Q(N-1). 

对 于 大 的 V 值 ， 该 算法 会 造成 浪费 。 在 航空 公司 的 例子 中 ， 如 果 想 要 得 到 N = 1000 
时 的 吞吐 率 和 响应 时 间 ， 你 需要 先 计 算 W= 1，2,…，999 的 所 有 值 ， 然 后 再 把 它们 丢弃 。 
Yan Bard (1979) 与 Paul Schweitzer 磋商 ， 找 到 了 一 条 捷径 。 他 们 为 平均 队列 长 度 引 入 
了 一 个 近似 值 : 

QW-D=QM 

这 种 近似 根据 负载 比例 ， 将 负载 为 N 时 的 队列 长 度 简单 扩展 得 到 负载 为 Y- 1 时 的 队 
列 长 度 。 将 其 替代 到 第 一 个 方程 中 ， 得 到 的 方程 仅 表示 负载 Y 时 的 平均 值 。 由 此 得 出 表 
9.5 中 的 简化 方程 。 我 们 可 以 通过 使 用 这 些 方程 ， 从 猜测 队列 长 度 是 WK (不 正确 的 ) F 
始 ， 对 各 个 量 的 平均 值 生成 一 系列 的 猜测 值 ， 从 而 完成 对 方程 的 求解 。 在 相对 较 少 次 的 迭 
代 之 后 ， 该 过 程 会 迅速 收敛 到 非常 接近 于 完全 的 均值 方程 所 计算 出 的 值 。 

这 一 过 程 可 以 很 容易 用 电子 表格 来 实现 。 在 选择 了 两 个 缺失 的 参数 之 后 ， 我 们 将 简 
化 的 模型 应 用 到 图 9.10， 用 来 回答 本 章 开头 提出 的 两 个 预测 问题 ( 见 图 9.11 )。 


图 9.11 


结论 
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表 9.5 简化 的 均值 方程 





方程 释义 
n= si ro~), 对 所 有 i 表 9.4 中 的 方程 1， 将 其 中 的 O,(N — 1) 替换 成 其 近似 值 
R=, V; R; 与 表 9.4 中 的 方程 2 相同 
N 
与 表 9.4 中 的 方程 3 相同 
Qi = XVR, XA i 与 表 9.4 中 的 方程 4 相同 





2.5 





R Xx 以 R X U RX U 
初始 配置 更 快 目录 搜索 ”代理 数量 翻番 

这 里 的 柱状 图 给 出 了 图 9.10 中 建 模 的 航空 公司 机 票 预定 系统 的 两 个 预测 问题 的 模型 结果 。 
我 们 用 如 下 的 办 法 选择 S 和 Ss 这 两 个 缺失 的 参数 : 选取 总 的 CPU 时 间 为 50 毫秒 ,求解 
SiV = 50 毫秒 ， 得 出 Si = 4.5 BH; 选取 5; 为 60 毫秒 。 对 三 个 服务 器 的 总 需求 为 Vi Si = 
V.S.= 50 2, ViS;= 60 毫秒 ， 使 得 数据 磁盘 成 为 瓶颈 。 根 据 这 些 值 ， 利 用 表 9.5 中 的 方 
程 就 可 以 得 到 图 中 左 侧 所 示 的 结果 。 再 来 考虑 这 两 个 预测 问题 。 第 一 个 预测 问题 是 : 如 果 
有 一 种 新 的 目录 磁盘 结构 ， 可 以 使 得 对 它 的 访问 次 数 降低 到 5 次 ， 而 其 他 的 所 有 事情 维持 
原样 ， 这 时 会 发 生 什么 ? 模型 给 出 的 结果 如 图 中 间 部 分 所 示 : 目录 磁盘 的 利用 率 降低 一 半 ， 
而 吞吐 率 和 响应 时 间 几 乎 没有 受到 影响 。 原 因 是 加 速 目 录 磁 盘 并 不 会 改变 数据 磁盘 是 瓶颈 
的 事实 。 第 二 个 预测 问题 是 : 如 果 代 理 的 数量 翻番 ， 增 加 到 2000 个 ， 又 会 有 什么 变化 ? 
如 图 右 侧 所 示 ， 这 一 改变 对 吞吐 率 几 乎 没有 影响 ， 因 为 CPU 和 目录 磁盘 已 经 接近 饱和 ， 
但 这 会 对 响应 时 间 造 成 显著 的 负面 影响 


关于 计算 的 一 个 最 难 的 问题 是 : 它 到 底 需 要 花 多 长 时 间 ? 这 个 问题 在 作业 相互 竞争 
且 形 成 队列 的 服务 器 网 络 上 很 难 解答 。 虽 然 作 业 和 网 络 都 是 确定 的 ， 但 响应 时 间 是 随机 
的 。 这 种 不 确定 性 是 由 网 络 中 作业 到 达 的 随机 性 和 服务 器 上 作业 服务 时 间 长 度 的 随机 性 造 
成 的 。 排 队 论 已 被 证 明 是 克服 这 种 不 确定 性 并 预测 计算 机 网 络 系统 的 吞吐 率 、 响 应 时 间 及 
拥塞 的 一 种 非常 精确 的 方法 (Buzen 2011 )。 
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计算 机 科学 家 从 20 世纪 60 年 代 开 始 使 用 排队 论 ， 他 们 做 出 了 两 项 重要 的 贡献 : 发 
展 了 这 一 理论 并 扩展 了 它 的 应 用 。 他 们 发 现 了 通过 排队 模型 计算 性 能 指标 的 快速 算法 ， 而 
模型 公式 本 身 的 计算 是 指数 难 的 。 利 用 这 些 算法 ， 模 型 可 以 被 快速 地 估算 。 这 导致 了 大 量 
相关 的 实验 研究 。 这 些 研 究 表明 ， 利 用 简单 的 模型 来 预测 吞吐 率 ， 与 测量 值 相 比 其 误差 在 
5% 以 内 ， 而 响应 时 间 的 误差 则 在 25% 以 内 。 而 正当 他 们 无 法 解释 为 什么 即使 在 系统 未 满 
足 关键 模型 假设 条 件 下 ,结果 也 很 好 时 ,计算 机 科学 家 又 发 现 了 可 应 用 于 许多 真实 系统 的 
更 简单 的 假设 ,可 以 得 到 相同 的 计算 公式 。 

排队 分 析 的 一 个 重要 原则 是 为 系统 每 个 状态 的 出 入 流 找到 平衡 方程 。 平 衡 方 程 的 
解 是 每 个 状态 所 占用 时 间 的 比例 。 这 个 时 间 比 例 就 可 以 用 于 计算 吞吐 率 和 响应 时 间 的 公 
式 中 。 

计算 机 科学 家 贡献 的 最 重要 的 定理 之 一 就 是 : 一 个 刚 到 达 服 务 器 的 作业 看 到 的 队列 
长 度 ， 与 系统 负载 少 1 个 时 外 部 观察 者 所 看 到 的 相同 。 换 句 话说， 刚 到 达 的 作业 充当 了 系 
统 的 外 部 观察 者 〈 此 时 系统 中 不 包括 刚 到 达 的 作业 )。 这 一 定理 导致 了 均值 方程 ， 从 而 得 
到 了 计算 任意 计算 机 网 络 系统 的 平均 吞吐 率 、 响 应 时 间 及 队列 长 度 的 快速 算法 。 
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Great Principles of Computing 


iw 计 





简单 之 中 蕴含 着 复杂 。 





Peter G. Neumann 
描述 一 个 软件 实体 时 ， 如 果 对 其 复杂 性 进行 抽象 ， 那 么 往往 意味 着 最 本 质 的 东西 已 
经 不 复 存 在 。 好 的 决策 来 自 于 经 验 ， 而 经 验 则 萌芽 于 坏 的 决策 





Frederick Brooks 
我 能 非常 清晰 地 回想 起 那样 一 个 时 刻 : 我 突然 意识 到 余下 生命 的 大 部 分 时 间 将 会 用 
于 发 现 自己 编写 的 程序 中 的 错误 。 
一 一 Maurice Wilkes 
我 们 正在 探索 两 种 未 知事 物 之 间 的 某 种 和 谐 关系 : 还 没有 设计 出 的 某 种 形式 ; 二 
是 无 法 正确 描述 的 上 下 文 。 
—Christopher Alexander 


1944 年 夏 示 ， 一 群 伟大 的 设计 者 聚集 在 一 起 讨论 一 种 基于 存储 程序 的 通用 电子 计算 
机 器 的 设计 结构 。 他 们 是 J. Presper Eckert 和 John Mauchly ( ENIAC 项 目的 首席 工程 师 )、 
John von Neumann (一 位 著名 的 数学 家 )、Arthur Burks 和 Herman Goldstine (数学 家 )。 他 
们 对 先前 的 计算 机 器 设计 项 目 进行 了 深刻 的 反思 和 讨论 。 很 快 ， 他 们 明确 了 一 些 已 经 存在 
的 有 效 设计 思想 ， 同 时 又 提出 了 一 些 新 的 思想 ， 这 些 思想 成 为 后 来 大 多 数 的 存储 程序 
计算 机 的 基本 设计 原理 ( Goldstine 1993, Wilkes 1995 )。 通 过 详细 的 分 析 ， 他 们 意识 到 ， 
与 现 有 的 计算 机 器 相 比 ， 存 储 程序 将 会 使 得 计算 机 的 运算 速度 和 效率 得 到 极 大 的 提升 。 他 
们 实现 了 一 台 名 为 EDVAC 的 计算 机 器 ， 这 人 台 机 器 于 1951 年 开始 正式 运行 。 英 国 剑桥 大 
学 的 Maurice Wilkes 使 用 这 些 基 本 原理 在 实验 室 中 实现 了 男 一 台 名 为 EDSAC 的 计算 机 
器 ， 这 人 台 机 器 在 1949 年 就 开始 了 正式 运行 。 存 储 程序 计算 机 已 经 成 为 一 种 得 到 有 效 验证 
的 伟大 设计 ( 见 图 10.1 )。 

随 着 程序 设计 经 验 的 不 断 积累 ， 这 些 项 目的 设计 者 对 计算 机 做 了 改进 ， 使 得 它们 更 
加 高 效 且 更 少 出 错 。 他 们 发 明了 索引 寄存 器 实现 对 列表 数据 ( 即 现代 所 说 的 数组 ) 的 访 
问 。 他 们 设计 了 可 用 于 子 程序 调用 和 返回 的 指令 。 他 们 设计 了 中 断 系统 ， 使 得 处 理 器 可 
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以 通过 跳 转 到 相应 的 子 程序 来 应 对 外 部 发 生 的 紧急 信号 。 他 们 还 发 明了 虚拟 内 存 ， 使 得 
数据 和 程序 可 以 在 内 存 和 外 存 之 间 进 行 自动 化 的 迁移 ， 避 免 了 手工 管理 操作 中 可 能 存在 的 


错误 。 





图 10.1 1949 年 左右 ，Maurice Wilkes 和 William Renwick 站 在 EDSAC 计算 机 的 旁边 。EDSAC 是 
第 一 台 可 实际 运行 的 存储 程序 计算 机 ， 其 中 使 用 到 了 由 Eckert, Mauchly, von Neumann, 
Burks, Goldstine 等 人 在 1944 年 提出 的 6 种 设计 思想 。 这 6 种 思想 分 别 是 :( 1 ) 所 有 部 件 
都 应 电子 化 ( 即 除 了 输入 和 输出 设备 之 外 ， 不 存在 机 械 式 运 动 部 件 );(2 ) 数值 采用 二 进 制 
存储 (以 提高 电路 的 容错 能 力 ); (3 ) 指令 集 是 用 户 和 机 器 交互 的 接口 (用 户 通 过 编写 程序 
来 控制 机 器 ); (4 ) 指令 是 顺序 执行 的 ; (5 ) 内 部 存储 器 不 应 该 对 程序 和 数据 进行 区 别 对 
待 (EDSAC 使 用 水 银 延 迟 线 作 为 其 内 部 存储 器 ) ; (6 ) 指令 在 运行 时 可 以 被 修改 。 采 用 这 
些 基 本 原理 的 计算 机 ， 其 结构 通常 称 为 “ 冯 … 诺 伊 曼 结构 ” ， 因 为 这 些 基 本 原理 的 第 一 个 
发 表 版 本 是 冯 “' 诺 伊 曼 (von Neumann) 基于 群体 讨论 形成 的 笔记 (von Neumann 1945 )( 图 
片 来 源 : 剑桥 计算 机 实验 室 历史 遗迹 发 掘 项 目 。 该 图 片 得 到 授权 ) 
这 些 机 器 孕育 了 一 种 全 新 的 专业 领域 一 程序 设计 ， 并 且 最 终 促成 了 软件 产业 的 形成 。 
第 一 代 的 科学 领域 程序 员 设 计数 值 计 算 方法 。 第 一 代 的 商业 领域 程序 员 则 设计 处 理 大 规模 
数据 的 计算 方法 。 通 过 实践 ， 这 些 程序 员 意 识 到 程序 设计 是 一 种 困难 且 非 常 容易 出 错 的 活 
动 。 系 统 设计 者 因此 开始 关注 如 何 使 程序 设计 更 加 容易 和 可 靠 。 其 中 一 个 重要 进展 是 高 
级 程序 设计 语言 的 发 明 : Fortran (1957), Lisp (1958), Algol ( 1958 )、Cobol ( 1959 ) 。 
这 些 高 级 语言 可 以 让 程序 员 通 过 非常 简洁 的 方式 表达 出 复杂 的 算法 。 编 译 器 将 这 些 源 程序 
自动 翻译 为 相应 的 机 器 代码 。 调 试 工具 帮 助 程序 员 发 现 并 修正 程序 中 的 错误 。 经 过 仔细 
测试 和 验证 的 通用 程序 库 得 到 了 广泛 的 使 用 ， 典 型 实例 包括 数学 软件 库 和 系统 功能 软件 
库 等 。 
除了 对 工具 、 方 法 、 程 序 库 的 关注 外 ， 一 个 得 到 广泛 认同 的 观点 是 : 大 多 数 的 软件 都 
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不 可 靠 、 不 可 信 。1968 年 ， 一 群 重要 的 软件 专家 聚集 在 著名 的 NATO 软件 系统 研讨 会 上 。 
他 们 宣称 整个 软件 产业 将 会 处 于 持续 的 危机 之 中 ， 因 为 软件 规模 和 复杂 度 的 不 断 增 加 ， 远 
远 超 过 人 们 掌握 的 软件 开发 工具 和 技术 的 能 力 范 围 。 他 们 呼吁 成 立 一 个 名 为 “软件 工程 ” 
的 领域 ， 通 过 严格 的 工程 化 方法 进行 软件 的 开发 。 开 发 者 在 实践 活动 中 发 明了 很 多 新 的 工 
具 和 方法 来 减少 程序 中 的 错误 ， 使 得 程序 更 加 可 靠 。 

18 年 之 后 ，Fred Brooks， 一 个 软件 专家 同时 也 是 IBM360 操作 系统 开发 项 目的 前 主 
管 ， 提 出 了 一 个 著名 的 论断 : 软件 工程 “没有 银 弹 ”( Brooks 1986 )。 他 指出 ， 虽 然 软 件 
开发 工具 有 了 长 足 的 进展 ， 人 们 开发 可 靠 、 可 用 、 安 全 的 软件 系统 的 能 力 并 没有 在 实质 上 
得 到 提升 。 他 认为 ， 软 件 设 计 最 困难 的 部 分 是 获得 对 软件 所 要 解决 问题 的 清晰 理解 。 这 不 
是 一 件 容易 的 事情 。 软 件 开发 的 成 功 与 否 在 很 大 程度 上 依赖 于 能 和 否 培养 出 具有 合适 技能 的 
DAs 

这 是 一 个 具有 深远 影响 的 结论 。 在 很 大 程度 上 ， 程序 设计 的 成 功 依赖 于 工程 师 的 技 
能 ， 而 不 是 形式 化 的 数学 分 析 或 基于 基本 原理 的 推导 。 程 序 设计 的 成 功 还 依赖 于 设计 者 的 
历史 经 验 积 累 ; 这 些 经 验 告 诉 设 计 者 哪些 方案 是 可 行 的 ， 而 哪些 又 是 不 可 行 的 。 

目前 来 看 ， 设 计 者 在 计算 中 承担 了 核心 的 角色 。 设 计 者 使 用 他 们 所 掌握 的 技能 对 软 
件 和 硬件 的 形态 产生 了 重要 影响 : 他 们 创造 了 能 够 按照 预期 运行 的 计算 过 程 ， 对 相关 领域 
的 实践 活动 提供 了 更 加 高 效 的 支撑 。 在 设计 者 眼中 ， 硬 件 和 软件 仅仅 是 一 种 工具 。 本 章 主 
要 关注 设计 者 如 何 克 服 复杂 性 设计 出 符合 预期 的 软件 系统 。 

计算 机 科学 的 重要 挑战 之 一 是 如 何 设计 和 构造 大 规模 的 计算 系统 ， 满 足 用 户 的 可 靠 、 
可 用 、 安 全 等 指标 ( Dependable、Reliable、Usable、Safe、Secure， 简 称 为 DRUSS)。 最 
有 效 的 方法 已 经 被 集成 在 程序 设计 语言 和 操作 系统 的 设计 之 中 ， 使 得 大 范围 的 人 可 以 从 中 
获 益 。 本 章 不 仅仅 关注 计算 的 设计 原则 和 技巧 ， 还 关注 设计 者 为 了 实现 DRUSS 的 目标 而 
使 用 的 一 些 结构 。 
什么 是 设计 

设计 是 一 个 人 们 非常 熟悉 的 概念 ， 出 现在 时 尚 、 产 品 、 建 筑 、 工 程 、 科 学 、 软 件 开 
发 等 众多 领域 中 。 设 计 是 一 种 通过 创造 和 规范 特定 的 制品 来 解决 问题 的 过 程 。 例 如 ， 在 软 
件 开发 中 ， 设 计 意 味 着 精心 制作 出 满足 用 户 预 期 的 软件 。 软 件 设 计 者 想 让 软件 对 实践 产生 
帮助 作用 ， 因 此 总 是 不 断 地 寻找 软件 的 潜在 用 户 。 软 件 设计 者 已 经 积累 形成 了 很 多 的 实践 


型 智慧 ， 表 现 为 一 组 软件 设计 的 基本 原则 (如 ， 关 注 点 分 离 、 模 块 化 、 抽 象 、 分 层 、 整 体 
性 、 功 能 性 、 弹 性 、 美 感 、 持 久 性 等 )。 设 计 原 则 指导 着 我 们 去 构造 出 对 用 户 群 体 有 用 和 
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有 意义 的 计算 系统 (Norman 2013, Winograd 1996 )。 


需要 注意 的 是 ， 设 计 原 则 和 模式 并 不 是 设计 技能 的 全 部 。 设 计 是 一 种 非常 精细 和 深 [198] 


奥 的 技能 。 它 所 涉及 的 很 多 方面 需要 在 一 个 经 验 丰富 的 导师 的 带领 下 才能 逐渐 领会 。 一 般 
而 言 ， 设 计 师 的 工作 需要 去 深入 聆听 用 户 群 体 的 关注 点 、 问 题 和 兴趣 ， 然 后 再 寻求 通过 对 
已 有 系统 和 技术 的 组 合 来 应 对 这 些 关 注 点 、 问 题 和 兴趣 。 设 计 者 还 需要 观察 用 户 对 设计 方 
案 的 反馈 ， 进 而 提出 更 好 的 设计 方案 。 设 计 工 作 会 涉及 多 轮 的 “评估 - 学习- 改进 ”的 
循环 。 同 时 ， 设 计 也 具有 非常 厚重 的 历史 感 ， 因 为 设计 师 要 学 会 与 那些 持续 变化 的 已 有 系 
统 和 关注 点 和 谐 共 存 。 

在 软件 设计 师 出 现 以 前 ， 设 计 在 很 多 领域 中 就 已 经 受到 了 关注 。 建 筑 设 计 师 致力 于 
让 其 建造 的 建筑 和 桥 粱 可用、 安全、 美观 、 持 久 耐用 “。 服 装 设计 师 致 力 于 让 衣服 更 加 时 
尚 和 舒适。 工业 设计 师 致力 于 生产 出 满足 Rams 原则 的 消费 产品 一 一 创新 、 有 有 用、 美观、 
易 理 解 、 沉 稳 、 忠 实 、 持 久 、 细 致 、 环 保 、 简 单 “。 工 程 师 致 力 于 建造 复杂 且 安 全 可 靠 的 
工程 系统 。“ 设 计 思 维 ” 这 个 词 就 是 用 来 描述 在 满足 上 述 要 求 的 情况 下 解决 问题 的 思维 方 
xk (Denning 2013 ) 。 

软件 设计 师 需要 满足 两 种 类 型 的 标准 : 以 DRUSS 目标 为 代表 的 传统 工程 设计 标准 和 
以 Rams 原则 为 代表 的 工业 化 设计 标准 。 在 计算 领域 内 ， 已 经 涌现 出 了 不 同 的 设计 流派 ， 
每 一 种 流派 都 或 多 或 少 地 关注 了 这 些 设计 标准 的 不 同 子 集 。 

经 验 丰富 的 设计 师 通常 会 采用 原型 的 方式 去 观察 其 设计 制品 的 工作 效果 以 及 用 户 对 
这 些 制品 的 反应 。1967 年 ，Maurice Wilkes ( 1913—2010 ) 在 其 图 灵 奖 获奖 演说 中 强调 了 
这 样 一 点 : 在 计算 机 的 早期 发 展 阶段 ， 研 究 者 总 是 非常 愿意 去 建造 实验 性 的 计算 机 ， 且 很 
少 关注 这 些 计 算 机 是 否 会 得 到 真正 的 商业 应 用 。 这 些 实验 工作 产生 了 系统 性 的 知识 体系 ， 
告诉 人 们 哪些 东西 可 用 ， 而 哪些 东西 又 不 可 用 (Wilkes 1968b)。 在 1995 年 的 回忆 录 中 ， 
Wilkes 强烈 批评 了 当时 存在 的 一 种 现象 ， 即 : 忽视 历史 ， 总 是 从 头 进行 设计 。 没 有 历史 
形成 的 知识 体系 ， 设 计 者 总 是 会 重复 犯 下 相同 的 错误 (Wilkes 1995, p.90 )。 今 天 ， 我 们 
可 以 看 到 ， 个 人 计算 机 操作 系统 的 设计 者 似乎 就 走 过 了 相同 的 历程 ， 经 过 长 期 的 困扰 之 后 
才 发 现 原来 解决 方案 在 很 多 年 前 就 已 经 存在 了 。 和 Fred Brooks 一 样 ，Wilkes 相信 好 的 设 
计 是 一 组 多 维度 的 技能 ， 需 要 精心 的 培育 才能 形成 。 

许多 设计 者 只 是 关注 如 何 对 已 有 的 实践 活动 进行 自动 化 ， 而 不 是 去 创造 新 的 实践 活 
动 。 发 明 于 1979 年 的 自动 化 电子 表格 就 是 这 样 的 一 个 例子 : 它 模仿 了 标准 商业 实践 中 数 
字 的 显示 和 处 理 活 动 ， 并 且 通 过 自动 化 ， 极 大 提高 了 运算 的 速度 ( 见 图 10.2 )。 出 现 于 
1971 年 的 ATM 机 则 是 另外 一 个 例子 : 它 实 现 了 对 银行 存 取 款 服 务 的 自动 化 支持 。 
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图 10.2 VisiCalc， 第 一 个 电子 表格 程序 ， 出 现在 1979 年 Apple IIT 个 人 计算 机 中 。 它 的 设计 者 ， 
Bob Frankston 和 Dan Bricklin， 在 这 个 软件 中 实现 了 对 标准 会 计 活动 的 自动 化 支持 。 数 字 
可 显示 在 行 或 列 中 。 任 何 地 方 都 可 以 做 上 标记 。 标 准 的 运算 操作 以 公式 的 方式 显示 在 对 应 
的 单元 格 中 ， 在 屏幕 显示 的 则 是 公式 的 运算 结果 。 商 业 用 户 发 现 电 子 表格 非常 易于 使 用 ， 
而 且 能 极 大 地 提高 他 们 的 工作 进度 。VisiCalc 展示 了 一 个 非常 重要 的 设计 原则 : 尽 可 能 保 
持 设计 与 用 户 实践 活动 的 一 致 性 


软件 系统 的 准则 

第 5 章 讨 论 了 程序 中 存在 错误 这 一 问题 : 程序 员 在 程序 设计 过 程 中 总 是 会 不 可 避免 地 
引入 错误 。 有 很 多 可 能 的 原因 会 导致 错误 的 引入 ， 例 如 : 设计 者 的 设计 意图 出 现 了 错误 ， 
或 者 用 户 对 最 终 产 品 的 期 望 发 生 了 错误 。 错 误 是 程序 员 无 法 避免 的 一 个 重要 挑战 ， 也 促使 
了 工程 化 设计 过 程 在 软件 开发 中 的 广泛 使 用 。 即 便 如 此 ， 彻 底 消除 程序 的 错误 仍然 是 一 个 
非常 困难 的 事情 。 

虽然 不 是 一 种 完美 的 解决 方案 ,工程 化 的 设计 过 程 仍然 被 大 多 数 的 软件 开发 活动 所 
使 用 。 为 了 尽 可 能 取得 成 功 ,设计 者 需要 遵循 5 种 重要 的 准则 : 

1 ) ER: 软件 是 否 具 有 足够 明确 的 需求 ? 

2) 正确 性 : 软件 是 否 能 够 正常 地 工作 ? 

3) 容错 性 : 软件 在 各 种 条 件 下 是 否 都 能 持续 工作 ? 

4) 时 效 性 : 软件 是 否 在 有 效 的 时 间 内 完成 了 工作 ? 

5 ) 适用 性 : 软件 是 否 能 够 与 环境 和 谐 交 互 ? 

为 了 实现 这 些 准 则 ， 设 计 者 已 经 将 相关 的 设计 原理 融入 到 程序 设计 语言 、 工 具 、 操 
作 系 统 以 及 网 络 中 。 


设计 者 知道 软件 所 要 完成 的 工作 是 什么 ， 并 且 能 够 通过 规约 的 方式 准确 地 表达 出 这 些 
需求 。 这 一 目标 说 起 来 容易 做 起 来 难 。 表 达 需 求 绝 对 是 一 个 挑战 ， 因 为 与 用 户 的 交流 并 不 
总 是 能 够 发 现 他 们 的 真正 需求 。 很 多 设计 者 因此 转 而 只 关注 技术 ， 而 不 再 愿意 聆听 用 户 的 
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声音 (Norman 2010 )。 让 软件 的 目标 用 户 与 软件 原型 发 生 交互 ， 是 一 种 更 加 可 靠 的 方式 去 
发 现 用 户 在 表述 其 需求 时 可 能 存在 的 错误 ， 或 去 明确 软件 应 该 具有 的 最 有 价值 的 特性 。 


正确 性 


源 程序 或 机 器 代码 程序 完全 准确 地 表现 出 规约 中 说 明 的 行为 。 正 确 性 很 难 完全 实现 ， 
因为 很 多 时 候 需 求 本 身 就 是 模糊 的 。 想 通过 证 明 的 方式 来 确认 正确 性 通常 不 具有 可 行 性 。 
试验 性 方法 很 多 时 候 是 唯一 的 选择 。 

关于 计算 正确 性 的 梦想 可 以 追溯 到 Charles Babbage ( 1791—1871 )。 他 非常 关注 数学 
计算 表 中 (如 ， 三 角 函 数 计算 表 、 指 数 计 算 表 等 ) 存在 的 错误 。 这 些 数学 计算 表 是 通过 差 
分 方法 产生 的 一 一 每 一 行 上 的 数据 都 是 在 先前 数据 的 基础 上 增加 一 个 小 的 偏差 而 产生 的 。 
这 样 的 计算 过 程 完全 是 通过 人 力 的 方式 进行 的 。 一 行 中 的 一 个 微小 错误 都 有 可 能 被 不 断 地 
传播 和 放大 ， 从 而 使 得 最 终 的 计算 结果 产生 巨大 的 偏差 。Babbage 向 人 们 展示 ， 如 果 在 导 
航 计算 表 中 出 现 了 这 样 的 错误 ,就 有 可 能 导致 船只 的 沉没 。1823 年 ，Babbage 说 服 英国 
政府 资助 其 构造 一 台 分 析 机 : 这 台 机 器 可 以 非常 快速 地 计算 出 导航 计算 表 ， 而 且 绝 对 不 会 
出 现 人 力 计 算 中 可 能 引入 的 错误 。 遗 憾 的 是 ，Babbage 在 分 析 机 的 构造 上 并 没有 取得 太 多 
的 进展 。 英 国政 府 最 终 在 1842 年 放弃 了 对 分 析 机 项 目的 资助 。 瑞 典 的 两 位 工程 师 Georg 
和 Edvard Scheutz 在 1843 年 复制 了 2 台 差 分 机 ， 但 是 ， 这 两 台 机 器 的 性 能 非常 不 稳定 且 
需要 进行 繁琐 的 设置 ， 因 此 很 少 有 人 愿意 使 用 它们 。 

这 一 段 历史 插曲 告诉 我 们 计算 机 器 从 来 都 无 法 脱离 错误 : 它们 还 使 得 错误 的 原因 更 
加 多 样 化 。 设 计 者 必须 去 证 明 机 器 代码 准确 实现 了 预期 的 功能 。 如 果 机 器 只 是 近似 实现 了 
预期 的 功能 ( 像 差分 机 那样 )， 设 计 者 还 需要 进行 额外 的 分 析 和 证 明 ， 以 确保 这 种 近似 产 
生 的 错误 不 会 对 运算 结果 的 价值 带 来 实质 性 的 影响 。 

计算 的 设计 者 对 自动 正确 性 验证 这 一 可 能 性 非常 感 兴趣 ， 即 : 机 器 能 够 自己 构造 出 
正确 性 的 证 明 过 程 。 自 动 验证 的 最 新 进展 是 模型 检查 (Clark & Emerson 1981, Quielle & 
Sifakis 1982, Clark 2008 )， 其 基本 思想 是 将 软件 系统 建 模 为 一 个 有 限 状 态 机 ， 然 后 验证 
这 一 有 限 状 态 机 满足 一 组 时 序 逻 辑 公式 。 有 限 状 态 机 模型 表达 了 实际 机 器 所 能 观察 到 的 行 
为 以 及 这 些 行为 之 间 的 迁移 关系 。 时 序 逻 辑 公式 表达 了 软件 系统 行为 的 形式 化 规约 。 模 型 
检查 技术 已 经 成 功 地 应 用 于 具有 大 规模 状态 的 实时 系统 的 验证 “。 


容错 性 
软件 及 其 宿主 系统 能 在 出 现 微小 错误 的 情况 下 持续 运行 ， 能 在 出 现 较 大 错误 的 情况 
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下 停止 工作 。 支 持 容 错 的 一 种 方式 是 宛 余 ， 即 : 将 硬件 和 数据 复制 为 多 个 副本 ， 以 保证 在 
一 个 副本 失效 的 情况 下 ， 其 余 的 副本 仍 能 进行 正常 的 工作 。 支 持 容错 的 另 一 种 方式 是 错误 
限制 ， 即 : 通过 对 进程 的 操作 环境 进行 结构 化 以 确保 进程 不 会 访问 与 其 计算 无 关 的 资源 ， 
限制 或 消除 系统 的 超级 用 户 模式 5。 

一 个 相关 的 原则 是 最 小 特权 原则 ， 即 : 系统 的 设计 者 应 确保 每 个 进程 在 默认 状态 只 
ee een ga ee 

错误 限制 的 机 制 可 以 分 为 三 种 : 

1) 静态 检查 。 例 如 ， 由 编译 器 进行 的 各 种 类 型 检查 : 浮 点 操作 仅 作 用 于 浮 点 数 、 将 
字符 串 传 递 给 子 程 序 时 确保 子 程序 的 参数 接收 字符 串 数据 、 文 件 操 作 句 柄 仅 传 递 给 文件 系 
统 操作 函数 等 。 

2) 动态 检查 。 一 个 典型 实例 是 数组 访问 越界 检查 ， 即 : 使 用 一 个 索引 值 访问 数组 中 
的 元 素 时 确保 索引 值 在 合法 的 范围 之 内 。 另 一 个 例子 是 缓冲 区 溢出 保护 ， 即 : 一 个 过 程 的 
参数 不 应 该 超过 为 该 参数 分 配 的 存储 空间 。 编 译 器 可 以 通过 在 机 器 代码 中 插入 相应 的 代码 
片段 来 保证 动态 检查 的 自动 实施 。 

3) 对 软件 运行 的 宿主 环境 进行 动态 检查 。 例 如 ， 操 作 系 统 会 强制 检查 传递 给 文件 管 
理 系 统 的 参数 确实 指向 了 某 个 文件 。 另 一 个 例子 是 ， 操 作 系 统 会 强制 进行 存储 空间 分 区 ， 
确保 一 个 进程 中 的 指令 只 会 对 本 进程 所 拥有 的 存储 区 域 中 的 数据 产生 影响 。 

静态 检查 的 实施 成 本 最 低 ， 但 无 法 应 对 错误 输入 、 数 据 污染 、 设 备 失效 等 动态 错误 。 
动态 检查 应 尽 可 能 地 避免 ， 因 为 频繁 的 内 部 检查 会 导致 
果 在 一 个 持续 执行 的 循环 中 进行 数组 访问 越界 检查 ， 将 会 对 循环 的 执行 效率 产生 多 大 的 影 
响 。 因 此 ， 我 们 需要 使 用 环境 信息 对 动态 检查 进行 优化 。 后 文 会 给 出 相应 的 例子 。 

容错 的 另外 一 种 重要 手段 是 “ 端 到 端 检 查 ”， 其 被 广泛 使 用 在 分 布 式 系统 和 网 络 中 
(Saltzer et al. 1984 ) 。 端 到 端 检 查 的 基本 思想 是 只 在 通信 的 两 端 进行 错误 检查 ， 而 不 对 通 
信 的 过 程 进 行 错误 检查 。 如 果 在 接收 端 发 现 错误 ， 则 要 求 发 送 端 重新 发 送 该 数据 。 这 一 手 
段 是 互联 网 TCP 协议 的 核心 (Tanenbaum 1980, Comer 2013 ) 。 


时 效 性 


系统 必须 在 预期 的 时 间 区 间 内 完成 任务 。 典 型 的 支持 技术 包括 算法 分 析 、 排 队 网 络 
分 析 、 实 时 系统 时 限 分 析 等 。 











N= 


适用 性 
系统 能 够 与 其 使 用 环境 和 谐 交 互 。 适 用 性 的 挑战 在 于 DRUSS 目标 集 的 上 下 文敏 感 
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性 ， 而 很 多 上 下 文 因 素 即 使 对 于 一 个 有 经 验 的 设计 者 而 言 也 无 法 轻易 被 发 现 。 
前 文 提 到 的 ATM 自动 取款 机 是 机 器 与 其 使 用 环境 之 间 和 谐 交 互 的 一 个 代表 性 实例 。 
有 经 验 的 软件 设计 者 会 意识 到 他 们 所 设计 的 不 仅仅 是 某 种 机 制 ， 而 更 是 一 种 有 效 激发 用 户 
参与 的 新 型 实践 活动 。 软 件 与 用 户 熟 知 的 实践 活动 越 接近 ， 用 户 就 会 越 容 易 接纳 软件 。 
其 他 具有 良好 适用 性 的 软件 包括 软件 游戏 、 电 子 表 格 、 亚 马 f 逊 购物 网 站 、 贝 叶 斯 垃 
圾 邮件 过 滤器 、 语 义 网 络 、 谷 歌 搜索 引擎 等 。 具 有 较 差 适用 性 的 软件 包括 操作 系统 中 未 被 
识别 的 错误 代码 、 商 业 电 话 服务 中 的 自动 语音 菜单 、 在 线 技 术 支 持 与 帮助 系统 等 。 


设计 原理 、 模 式 和 示意 


设计 者 在 实践 中 积累 了 很 多 有 用 的 经 验 来 应 对 上 述 挑战 。 这 些 经 验 可 以 表述 为 设计 
原则 、 设 计 模式 和 设计 示意 三 种 形式 “。 

设计 原理 是 对 设计 决策 中 所 需 的 技术 和 策略 的 描述 。 设 计 原 理 的 目标 是 让 设计 能 够 
产生 满足 上 述 5 种 准则 的 设计 方案 。 

设计 模式 是 对 设计 者 经 常 遇见 的 一 些 共 性 场景 的 描述 。 设 计 模 式 通 常会 告诉 程序 员 
如 何 去 组 织 程序 ， 或 如 何 去 实 施 程 序 设 计 过 程 ， 以 达到 最 好 的 设计 效果 。 

设计 示意 通常 包括 一 些 更 宽泛 的 设计 经 验 和 建议 等 ， 不 过 不 像 设 计 原 理 和 设计 模式 
那么 形式 化 、 正 规 化 。 

下 面 三 个 小 节 依 次 给 出 设计 原理 、 设 计 模式 、 设 计 示 意 的 若干 实例 。 需 要 注意 的 是 ， 
在 实践 中 我 们 发 现 了 数量 非常 多 的 原理 、 模 式 和 示意 。 在 下 面 的 实例 中 列 出 了 115 条 。 但 
是 ， 这 并 不 意味 着 程序 设计 这 个 领域 的 不 成 熟 性 ， 而 只 是 说 明 一 个 好 的 设计 者 通常 需要 掌 
握 不 同 级 别 的 技能 。 


原理 


设计 原理 的 一 个 典型 实例 是 由 Jerome Saltzer 和 Michael Schroeder 在 1975 年 提出 的 
一 组 关于 信息 保护 的 设计 原理 ( 见 表 10.1 )。2009 年 ，Saltzer 和 他 的 同事 Frans Kaashoek 
对 近 30 年 以 来 的 实践 经 验 进 行 了 系统 性 的 总 结 ， 形 成 了 25 条 经 过 广泛 验证 的 系统 设计 
原理 以 及 相关 的 附属 性 原理 。 由 于 篇 幅 关 系 ， 我 们 不 在 此 对 其 进行 更 详细 的 介绍 。 


表 10.1 Saltzer 和 Schroeder 提出 的 关于 信息 保护 的 设计 原理 


原理 描述 
机 制 的 经 济 性 保持 设计 的 简单 与 细 粒 度 
故障 时 的 安全 默认 值 拒绝 默认 访问 ; 只 有 得 到 显 式 授权 才 人 允许 访问 


完全 中 立 对 每 一 个 对 象 的 每 一 次 访问 都 进行 检查 
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( 8 ) 
原理 描述 
开放 设计 不 要 假设 攻击 者 不 了 解 系统 的 设计 
权限 分 离 对 访问 的 控制 检查 要 基于 多 种 信息 源 
最 小 化 权限 对 任何 一 个 进程 ， 只 赋予 与 其 任务 执行 相关 的 权限 集合 
最 小 公用 机 制 不 允许 一 个 进程 修改 共享 的 状态 信息 ， 以 避免 共享 信息 遭 到 破坏 
心理 可 接受 保护 机 制 应 易于 使 用 ， 或 至 少 很 容易 可 以 将 其 屏 项 


模式 

计算 领域 的 研究 者 从 不 同 的 角度 探索 了 实现 系统 设计 5 种 准则 的 多 种 可 能 的 方式 ， 
形成 了 不 同 的 思想 流派 。 一 些 流派 推举 “过 程 模型 "， 例 如 : 瀑布 模型 、 螺 旋 模 型 等 。 另 
一 些 流 派 则 推崇 “设计 途径 >” ， 例 如 : 提高 设计 活动 的 参与 性 、 以 用 户 为 中 心 、 敏 捷 、 模 
式 等 。 不同 思 想 流 派 的 最 终 目标 是 一 样 的 。 他 们 之 间 的 差异 主要 体现 在 对 不 同 准则 的 相对 
重要 程度 存在 不 同 的 理解 。Barry Boehm (2002) 认为 ， 标准 的 工程 化 设计 方法 提倡 严格 
其 至 刻板 的 设计 过 程 ， 代 表 了 一 种 极为 严谨 的 设计 思想 ; 敏捷 方法 则 与 之 相反 ， 代 表 了 一 
种 极为 灵活 的 设计 思想 。 他 认为 ， 严 格 的 设计 过 程 适 用 于 对 可 靠 性 和 安全 性 有 和 较 高 要 求 的 
场景 ， 敏 捷 方 法 则 更 适用 于 对 可 用 性 和 演化 性 有 较 高 要 求 的 场景 。 他 呼吁 ， 这 两 种 不 同 的 
设计 思想 需要 相互 协作 、 相 互 融 合 ， 以 形成 关于 系统 设计 的 更 优 模式 。 

20 世纪 90 年 代 初 ， 敏 捷 思想 流派 的 一 组 程序 员 ， 受 到 了 建筑 学 家 Chrisopher Alexander 
(1979 ) 关于 建筑 设计 模式 的 启发 ， 发 起 了 “软件 模式 共同 体 ” 运 动 。 一 个 软件 模式 刻画 了 程 
序 员 经 常 遇 到 的 一 类 场景 ， 并 且 给 出 了 应 对 这 种 场景 的 最 佳 程序 设计 方案 。 他 们 的 早期 工作 
成 果 之 一 是 一 本 关于 软件 模式 的 手册 (Coplien 和 Schmidt 1995 )。 从 那 时 起 ， 这 个 共同 体 不 断 
提出 了 更 多 的 设计 模型 。 维 基 百 科 的 设计 模式 词 条 中 一 共 汇 集 了 4 类 58 种 设计 模式 “: 

第 1 类 : 创建 型 模式 (对 对 象 和 接口 的 创建 进行 管理 的 模式 )。 例 如 : 对 不 再 使 用 的 
对 象 进行 回收 ， 以 避免 资源 的 浪费 。 

第 2 类 : 结构 型 模式 (对 代码 结构 进行 管理 的 模式 )。 例 如 : 将 一 组 相关 的 原则 组 织 
为 一 个 单独 的 概念 实体 。 

第 3 类 : 行为 型 模式 (对 模块 的 行为 进行 管理 的 模式 )。 例 如 : 通过 为 变量 默认 赋值 
为 一 个 空 对 象 ， 以 避免 对 变量 的 空 引用 。 

第 4 类 : 并 发 型 模式 (对 对 象 的 并 发 访问 进行 管理 的 模式 )。 例 如 : 当 一 个 对 象 需要 
被 互 斥 访问 时 ， 为 该 对 象 关 联 一 个 访问 监视 对 象 。 

软件 模式 共同 体 信奉 经 验 至 上 的 理念 : 他 们 总 是 从 实践 中 不 断 地 进行 学 习 ， 总 结 提 
炼 出 相应 的 设计 模型 ， 并 通过 实践 对 这 些 模式 进行 测试 和 改进 。 


NN 

Butler Lampson， 一 位 杰出 的 软件 设计 者 ， 在 1983 年 总 结 了 一 组 设计 指导 原则 ， 并 
将 这 些 指导 原则 命名 为 “设计 示意 ”， 因 为 其 中 的 每 一 种 指导 原则 都 不 具有 普遍 适用 性 ， 
它们 是 优秀 设计 者 随时 间 发 展 的 一 种 方向 辨别 力 。 表 10.2 以 标语 的 方式 简要 表达 了 这 些 
设计 示意 。 我 们 在 此 不 对 其 作 进一步 解释 。 需 要 注意 的 是 ， 设 计 不 仅仅 是 一 种 技术 活动 ， 
其 中 很 多 方面 具有 很 强 的 艺术 性 。Lampson 对 软件 设计 的 最 佳 实践 也 进行 了 很 好 的 总 结 。 


表 10.2 Lampson 提出 的 设计 示意 
正确 性 /适用 性 


安全 第 一 
将 正常 情况 与 异常 情况 分 离 降低 负载 
端 到 端 


SI 












保持 简洁 性 
做 好 一 件 事 
不 要 一 般 化 


l 端 到 端 
接口 peat 日 志 更 新 
a 操作 原子 化 


使 用 过 程 参数 
让 使 用 者 决策 
保持 接口 稳定 





缓存 计算 结果 
使 用 设计 技巧 
使 用 暴力 破解 
在 后 台 计 算 

批 处 理 





操作 原子 化 
使 用 设计 技巧 







软件 系统 的 设计 原理 

如 上 文 所 述 ， 软 件 工程 文献 中 已 经 记录 了 大 量 的 被 实践 所 验证 的 软件 系统 设计 原理 。 
其 中 ， 最 核心 或 最 基础 性 的 设计 原理 已 经 被 落实 到 编程 语言 、 应 用 程序 以 及 操作 系统 的 结 
构 之 中 。 目 前 ， 最 为 流行 的 结构 包括 : 


模块 化 类 层次 

接口 分 层 

抽象 虚拟 机 

信息 隐藏 复 用 

封装 对 象 和 包 

分 解 版 本 控制 

分 离 式 编译 客户 端 一 服务 器 


功能 级 别 
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这 些 结构 可 以 作为 工具 帮助 设计 者 应 对 一 些 重复 出 现 的 模式 。 但 是 ， 如 果 设 计 者 对 
这 些 结构 所 针对 的 模式 缺乏 清晰 的 了 解 ， 那 么 ， 就 有 可 能 对 这 些 结构 作出 不 恰当 的 使 用 。 
下 面 ， 我 们 简要 介绍 涉及 所 有 上 述 结构 的 6 种 模式 : 层级 式 聚合 ， 封 装 、 级 别 、 虚 拟 机 、 
对 象 、 客 户 端 -服务 器 。 


层级 式 聚 合 


层级 式 聚 合 指 的 是 一 个 包含 一 组 相互 交互 的 子 对 象 的 对 象 〈 即 可 识别 的 软件 或 硬件 成 
份 ) 是 一 个 更 大 粒度 对 象 的 构成 成 分 。 你 可 以 直接 与 一 个 对 象 交 互 ， 而 不 必 关 系 其 内 部 细 
节 。 如 果 进 入 一 个 对 象 的 内 部 ， 你 可 以 看 到 一 组 更 小 粒度 的 对 象 及 其 之 间 的 交互 关系 。 这 
样 ， 不同 粒度 的 对 象 通过 逐 层 聚合 的 方式 形成 一 个 层级 结构 。 这 个 层级 中 的 每 一 个 对 象 都 
对 上 层 对 象 和 下 层 对 象 进 行 了 很 好 的 隔离 。 

层级 式 聚 合 在 自然 界 中 普遍 存在 。 物 理 对 象 按 照 其 玉 寸 ， 自 然 形成 了 一 个 具有 45 层 
的 层级 式 聚 合 结构 : 夸克、 电子、 质子、 原子、 分子 在 10“ 米 的 尺寸 级 别 上 ， 处 于 这 种 
层级 结构 的 底层 ; 行星 、 人 恒星、 星系、 星云、 类 星体 在 10° 米 的 尺寸 级 别 上 ， 处 于 这 种 
层级 结构 的 顶层。 

在 生物 学 中 也 存在 类 似 的 层级 式 聚 合 结构 ， 其 涉及 的 层级 包括 DNA、 基 因 、 细 胞 、 
器 官 、 神 经 系统 、 植 物 / 动物 、 社 会 系统 。 在 数学 中 ， 分 形 也 是 一 种 层级 式 聚 合 结构 ， 其 
特点 在 于 部 分 与 整体 具有 相同 的 结构 。 在 计算 领域 中 ， 局 部 性 原理 即 是 层级 式 聚合 结构 所 
展现 的 一 种 性 质 : 相 邻 的 两 个 成 分 之 间 发 生 交互 的 频率 远大 于 相聚 较 远 的 两 个 成 分 之 间 交 
互 的 频率 ; 与 一 个 对 象 的 一 次 交互 ， 会 触发 对 象 内 部 成 分 之 间 的 一 个 较 长 的 交互 序列 。 

在 上 文 列 出 的 设计 结构 中 ， 模 块 化 、 抽 象 、 信 息 隐藏 、 分 解 等 结构 与 层级 式 聚 合 具 
有 较 强 的 相关 性 。 

模块 化 指 的 是 将 一 个 大 的 系统 分 解 为 一 组 更 小 粒度 的 模块 ， 模 块 之 间 通 过 清晰 定义 
的 接口 进行 交互 。 

抽象 指 的 是 为 一 个 事物 定义 一 个 简化 版 本 以 及 作用 在 该 简化 版 本 上 的 一 组 操作 。 例 
如 ， 比 特 (0 或 1) 是 对 任何 能 够 存储 二 值 状态 信息 的 媒介 的 一 种 抽象 ， 计 算 的 过 程 涉 及 
对 比特 的 读 和 写 两 种 操作 。 抽 象 是 人 脑 具 有 的 最 基础 的 能 力 之 一 。 通 过 去 除 细节 、 保 留 更 
本 质 的 东西 ， 抽 象 提供 了 一 组 适用 于 所 有 情况 的 简单 操作 。 一 个 抽象 体 即 对 应 于 层级 式 聚 
合 结构 的 一 个 聚合 体 ， 形 成 层级 结构 的 过 程 即 是 抽象 的 过 程 。 在 传统 科学 中 ， 抽 象 主要 用 
于 解释 : 抽象 定义 了 基本 规律 ， 描 述 了 事物 的 运作 过 程 。 在 计算 领域 中 ， 抽 象 的 作用 更 
K: 不 仅 定义 了 各 种 计算 对 象 ， 还 可 以 实施 各 种 操作 。 








文件 (一 个 具有 名 字 的 比特 序列 ) 是 对 所 包含 的 数字 对 象 的 一 种 抽象 ， 这 些 数字 对 象 
包括 文本 、 图 形 、 电 子 表 格 、 图 像 、 视 频 、 声 音 、 目 录 等 。 文 件 系 统 则 提供 了 可 以 作用 于 
任何 文件 的 一 组 操作 ， 包 括 : 创建 、 删 除 、 打 开 、 关 闭 、 读 、 写 等 。 任 何 一 个 程序 的 输出 
(表示 为 比特 序列 ) 都 可 以 被 存放 在 一 个 文件 中 。 文 件 系统 并 不 关心 特定 类 型 文件 在 内 容 
格式 上 的 差异 性 ， 而 只 关心 如 何 存储 和 读 取 比 特 数据 。 

信息 隐藏 指 的 是 如 何 对 用 户 屏 蔽 实现 过 程 中 的 细节 (Parnas 1972 )。 通 过 信息 隐藏 ， 
用 户 无 法 获知 实现 细节 ， 可 以 避免 用 户 对 实现 细节 可 能 产生 的 不 必要 的 依赖 ， 从 而 避免 由 
于 实现 细节 的 改变 而 可 能 产生 的 错误 。 在 层级 式 聚 合 结构 中 ， 对 一 个 聚合 体 的 内 部 结构 进 
行 隐藏 体现 了 一 种 设计 决策 ， 其 结果 是 具体 实现 方式 的 改变 不 会 导致 聚合 体外 部 可 见 行为 
的 改变 。 一 个 软件 模块 通过 对 外 提供 的 简单 接口 隐藏 了 内 部 的 实现 细节 。 

文件 系统 很 好 地 展示 了 信息 隐藏 的 设计 原理 。 用 户 仅 看 到 文件 ， 而 不 用 关心 背后 的 复杂 
实现 细节 ,例如 : 磁盘 、 磁 盘 驱动 器 、 磁 盘 地 址 、 记 录 、 索 引 表 、 缓 冲 区 、 文 件 控制 块 、 文 件 
在 内 存 中 的 副本 等 。 信 息 隐藏 给 用 户 带 来 了 两 个 方面 的 利益 。 第 一 ， 用 户 只 需要 关心 对 文件 
的 打开 、 关 闭 、 读 、 写 等 操作 ， 而 根本 无 需 关心 文件 被 存放 在 哪个 磁盘 上 、 文 件 如何 被 分 解 
为 更 细小 的 存储 单元 ， 以 及 如 何 对 文件 缓冲 区 进行 管理 等 底层 细节 。 第 二 ， 软 件 工程 师 可 以 
在 不 对 用 户 造 成 任何 干扰 的 情况 下 对 文件 系统 的 内 部 实现 细节 进行 持续 的 优化 和 改进 。 

实践 中 也 存在 不 具有 信息 隐藏 的 抽象 。 例 如 ， 一 个 组 织 中 的 层级 结构 是 按照 角色 对 人 
员 进 行 的 一 种 抽象 。 但 高 层 决 策 者 可 以 进行 微 管理 ， 即 跨越 层级 对 下 层 的 人 员 进 行 管理 。 

分 解 指 的 是 把 一 个 大 的 问题 分 解 为 更 小 粒度 的 成 分 ; 每 一 个 成 分 可 以 进行 独立 的 设 
计 ， 并 通过 组 装 的 方式 形成 一 个 完整 的 系统 。 在 一 个 层级 式 聚 合 结构 中 ， 识 别 出 聚 合体 的 
内 部 成 分 即 是 一 种 分 解 。 模 块 即 是 对 其 内 部 成 分 的 一 种 抽象 。 

对 于 一 个 大 型 系统 而 言 ， 通 过 设计 将 其 分 解 为 模块 和 接口 ， 往 往 还 不 够 。 当 这 些 构 
成 系统 的 模块 被 开发 完成 并 组 装 在 一 起 后 ， 虽 然 每 个 模块 都 正确 地 实现 了 各 自 的 规约 ， 整 
个 系统 仍然 可 能 无 法 正常 工作 。 这 其 中 的 问题 在 于 ， 除 了 模块 的 内 部 实现 之 外 ， 构 成 系统 
的 另外 一 个 重要 成 分 是 模块 之 间 的 交互 ; 每 个 模块 的 设计 者 无 法 对 模块 之 间 的 交互 进行 测 
试 。 因 此 ， 对 系统 的 整体 进行 测试 是 系统 设计 中 不 可 缺少 的 一 个 环节 ; 通过 这 个 环节 ， 可 
能 会 发 现 单个 模块 设计 上 的 缺陷 ， 从 而 对 其 重新 设计 ， 直 至 整个 系统 能 够 正常 工作 。 


封装 


将 软件 封装 为 最 小 特权 域 是 封装 这 种 设计 原理 的 一 个 典型 实例 (Dennis 和 Van Horn 
1966, Fabry 1974, Saltzer 和 Schroeder 1975 ) 。 最 小 特权 域 对 于 运行 不 可 信 的 软件 尤其 
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有 效 。 一 个 进程 的 保护 域 表现 为 一 个 能 力 列 表 ， 即 : 一 个 指向 该 进程 被 授权 访问 的 所 有 对 
象 的 指针 列表 。 能 力 列表 的 详细 内 容 参 见 第 7 章 。 一 个 进程 只 能 访问 出 现在 能 力 列表 中 的 
WA; 对 其 他 对 象 ， 由 于 无 法 获知 其 地 址 ， 则 根本 无 法 访问 。 

一 般 而 言 ， 一 个 进程 在 其 声明 周期 中 只 会 使 用 一 个 能 力 列表 。 但 是 ， 当 一 个 进程 需 
要 使 用 一 个 不 可 信 的 过 程 调用 ,该 进程 可 以 切换 至 一 个 较 小 的 保护 域 上 ; a 
该 过 程 调用 完成 正常 工作 所 必需 的 一 个 最 小 能 力 列 表 。 因 此 ， 被 调用 的 过 程 无 法 访问 这 个 
最 小 能 力 列表 之 外 的 对 象 。 当 该 过 程 调用 结束 后 ， 进 程 又 恢复 至 原来 的 保护 域 。 无 论 被 调 
用 过 程 内 部 是 否 包含 错误 或 恶意 代码 ， 这 个 过 程 也 无 法 对 最 小 能 力 列表 之 外 的 对 象 造 成 任 
何 的 伤害 GLA 10.3 )。 


TRANSFER (A, R1, R2 
TE a 


TRANSFER 
代码 











图 10.3 ”基于 能 力 的 操作 系统 通过 特定 的 结构 来 防止 错误 的 扩散 。 这 张 图 给 出 了 对 一 个 不 可 信 的 
转账 程序 进行 封装 的 结构 。 这 个 转账 程序 将 数额 为 A 的 资金 账户 记录 R1 转移 到 账户 记 
录 R2 中 。 当 这 个 名 称 为 TRANSFER 的 程序 被 调用 时 ， 它 的 能 力 列表 被 设置 为 特权 域 d。 
这 个 特权 域 中 包含 TRANSFER 程序 的 代码 以 及 被 编译 器 所 附加 的 一 组 内 部 对 象 。 对 于 该 
程序 的 一 次 正常 调用 会 被 编译 器 替换 为 一 条 新 的 指令 “ENTER d”( 此 处 ，d 即 为 特权 域 
d)。ENTER 则 会 创建 一 条 激活 记录 ( AR)， 将 当前 的 能 力 列表 设置 为 d (通过 改变 CPU 
中 特定 寄存 器 的 值 )， 并 且 将 指令 指针 指向 能 力 列 表 中 编号 为 0 的 能 力 的 起 始 位 置 。 然 后 ， 
TRANSFER 程序 就 被 限制 在 特权 域 d 中 进行 执行 。 这 时 ， 激 活 记 录 CAR) 中 还 会 记录 下 
调用 者 所 关联 的 能 力 列表 ， 使 得 在 TRANSFER 程序 执行 完毕 后 能 力 列表 能 被 复原 。 激 活 
记录 (AR) 中 还 会 包含 两 条 分 别 指向 R1 A R2 的 能 力 。TRANSFER 程序 在 执行 过 程 中 ， 
只 能 访问 到 AR 中 所 存在 的 这 两 条 记录 ， 而 无 法 访问 到 任何 其 他 能 力 


级 别 


级 别 是 另 一 种 形式 的 层级 式 聚 合 结构 。 处 于 同一 级 别 的 所 有 对 象 在 相互 之 间 的 交互 
以 及 与 高 层 对 象 的 交互 方面 具有 同等 的 地 位 。 前 文 提 及 的 自然 界 所 展现 出 的 级 别 结构 即 展 
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示 了 这 样 的 性 质 。 在 原子 级 别 上 ， 我 们 主要 关注 化 学 键 接 、 缺 电子 化 合 物 、 分 子 形状 等 问 
题 ， 而 不 太 关 注 原 子 属 于 哪 一 个 物品 、 原 子 内 部 的 各 部 分 之 间 如 何 结合 在 一 起 等 问题 。 

级 别 原理 已 经 被 用 于 对 非常 复杂 但 具有 可 证 明正 确 性 的 软件 系统 的 结构 进行 设计 。 它 
被 首次 使 用 在 操作 系统 的 结构 设计 中 。1968 年 ，Edsger Dijkstra 在 Technische Hogeschool 
Eindhoven 开发 完成 了 一 个 被 后 人 称 为 “THE operating system” 的 操作 系统 。Dijkstra 将 这 个 操 
作 系 统 分 为 7 个 级 别 ; 每 一 个 级 别 包 含 了 一 组 软件 构件 ， 实 现 了 一 种 特定 的 抽象 概念 。 例 如 ， 
对 于 “进程 ”级 别 ， 它 在 处 理 器 的 基础 上 抽象 出 一 种 除非 等 待 信号 否则 持续 向 前 的 计算 过 程 。 
所 有 高 于 “进程 ”级 别 的 软件 构件 可 以 直接 在 进程 的 基础 上 进行 程序 设计 ， 而 不 需要 关心 中 央 
处 理 器 是 如 何在 不 同 的 进程 之 间 进 行 上 下 文 切 换 的 。“ 进 程 ”级 别 较 好 解决 了 对 单一 中 央 处 理 
进行 多 路 复 用 的 问题 。10 年 之 后 ，SRI 公司 的 一 个 研究 小 组 构造 了 一 个 安全 性 可 证 明 的 操作 系 
统 : 这 个 系统 具有 14 个 层级 ; 而 且 可 以 证 明 ， 对 于 一 个 级 别 ， 只 要 其 下 的 所 有 低层 级 别 都 是 
安全 的 ， 那 么 ， 这 个 级 别 也 是 安全 的 (Neumann et al. 1980 )( 见 图 10.4). 


接口 语言 (负责 启动 应 用 程序 、 管 理 窗 口 和 用 户 事件 ) 
目录 、 目 录 树 、 路 径 名 
文件 、 设 备 、 管 道 
虚拟 机 
同一 地 址 空间 的 多 个 线程 
进程 间 通 信 (IPC) 消息 、 端 口 、 套 接 字 
虚拟 存储 地 址 空间 、 存 储 页 
进程 进程 、 就 绪 列 、 信 号 量 
底层 输入 / 输出 设备 、 驱 动 程序 
硬件 级 别 Hib, RE. AAR. FE OR. EH 


图 10.4 图 中 给 出 的 10 个 级 别 是 通过 对 多 种 操作 系统 的 级 别 结构 分 析 综 合 后 形成 的 (Denning et al. 
2000 )。 硬 件 是 最 低级 别 。 其 上 的 每 一 个 级 别 分 别 实 现 了 面向 特定 类 型 对 象 的 一 组 操作 例如 
对 文件 的 读 或 写 操作 。 每 一 个 级 别 实 现 的 操作 是 通过 对 低级 别 操作 进行 组 合 而 形成 的 。 级 别 
1 ~ 5 形成 了 操作 系统 的 微 内 核 ， 包 含 必须 在 管 态 模式 下 执行 的 最 小 功能 集合 。 微 内 核 往往 
只 会 占用 非常 少 的 存储 空间 。 级 别 5 ~ 9 通常 具有 分 布 式 的 特点 ， 即 : 一 个 可 信和 网 络 中 的 任 
何 机 器 都 可 以 访问 存在 于 该 网 络 中 的 任何 一 个 对 象 ， 而 无 需 考虑 该 对 象 的 物理 位 置 。 从 用 户 
级 别 到 硬件 级 别 的 时 间 刻 度 相 差 10” 个 数量 级 ， 这 使 得 操作 系统 成 为 最 复杂 的 人 造 系 统 之 一 


互联 网 工程 师 已 经 将 通信 协议 软件 组 织 为 不 同 的 层次 。 层 次 类 似 于 级 别 : 两 者 都 将 软 
件 进行 分 层 ， 并 使 得 上 层 功能 的 开发 可 以 在 低层 功能 的 基础 之 上 进行 。 例 如 ， 互 联网 传输 
协议 TCP 即 建立 在 若干 低层 协议 之 上 ， 具 体 包括 IP 协议 、 路 由 协议 、 数 据 链接 协议 、 物 
理 信号 协议 (Tanenbaum 1980, Comer 2013 )。 层 次 不 同 于 级 别 的 重要 一 点 在 于 : 层次 之 
间 的 访问 是 通过 数据 的 向 上 或 向 下 传输 实现 的 ; 而 一 个 级 别 只 能 访问 低层 级 别 ， 且 只 能 通 
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过 直接 过 程 调 用 的 方式 进行 访问 。 
无 论 对 于 操作 系统 或 网 络 ， 级 别 原 理 都 极 大 地 促进 了 系统 的 构造 、 正 确 性 证 明 以 及 
测试 ， 其 主要 原因 在 于 级 别 原理 使 得 系统 的 构造 可 以 逐 层 进行 。 


虚拟 机 


虚拟 机 ( Virtual Machine, VM) 使 用 一 台 计 算 机 来 模拟 另外 一 台 计 算 机 。 这 个 思想 
来 源 于 通用 图 灵 所 蕴含 的 模拟 原理 。 虚 拟 机 这 个 术语 有 四 种 具体 含义 。 

第 一 ， 虚 拟 机 指 的 是 对 任何 抽象 计算 机 器 的 模拟 。 一 个 抽象 计算 机 具有 一 组 操作 ， 
这 些 操作 可 以 用 于 对 计算 机 存储 器 中 的 数值 进行 处 理 。 每 一 个 操作 类 似 于 硬件 计算 机 的 一 
个 指令 。 这 组 操作 通常 称 为 应 用 程序 接口 ( Application Program Interface，API)。 抽 象 计 
算 机 的 用 户 只 能 通过 API 与 计算 机 发 生 交互 ， 而 无 法 获知 API 内 部 的 具体 实现 细节 。 操 
作 系 统 中 管理 特定 对 象 的 子 系统 就 采用 了 这 种 方式 进行 组 织 ， 即 通过 API 对 特定 的 对 象 
(例如 文件 ) 进行 管理 。 图 10.5 展示 了 文件 系统 的 基本 工作 原理 。 


用 户 的 CL 
h 





h=create (初始 化 ) 


delete (h) 


J 


返回 ” 用 户 | 用 户 的 
工作 空间 





图 10.5 文件 管理 器 由 两 个 部 分 组 成 : 一 个 具有 6 种 指令 /操作 的 虚拟 机 ; 一 个 用 于 存放 文件 的 存 
储 器 。 文 件 管理 器 的 内 部 结构 则 被 封装 起 来 ， 用 户 无 法 看 到 文件 结构 、 文 件 描 述 表 、 缓 冲 
区 、 操 作 的 实现 代码 等 内 容 。 这 6 种 操作 的 工作 流程 如 下 所 示 。 创 建 操作 create 在 存储 器 
的 位 置 b 生成 一 个 新 的 文件 ， 为 这 个 文件 确定 一 个 唯一 标识 符 x， 并 且 将 x 封装 在 一 个 新 
的 能 力 c 中 。 创 建 操作 返回 的 这 个 新 的 能 力 c 被 放置 在 用 户 能 力 列表 中 一 个 方便 的 位 置 h 
Eo 创建 操 作 还 在 内 部 文件 描述 表 中 记录 了 关联 关系 (x，b)。 这 样 ， 用 户 通过 本 地 名 称 h 
就 能 引用 这 个 文件 。 删 除 操作 delete(h) 将 文件 h 移 除 。 打 开 操 作 open(h) Æ RAM 缓冲 区 
中 复制 了 文件 h 的 一 个 副本 (为 了 访问 上 的 快速 性 )。 关 闭 操作 close(h) 将 文件 h 在 缓冲 区 
的 副本 写 回 磁盘 并 将 副本 删除 。 读 操作 read(h) 和 写 操 作 write(h) 在 缓冲 区 副本 和 用 户 工作 
空间 进行 字 节 传输 。 这 5 种 以 h 为 参数 的 文件 系统 操作 从 h 中 抽取 出 文件 的 唯一 标识 符 x, 
在 文件 描述 表 中 定位 到 关联 关系 (x，b)， 然 后 将 具体 的 操作 应 用 至 存放 在 位 置 b 的 文件 


Ba tt 169 


第 二 ， 虚 拟 机 指 的 是 对 硬件 计算 机 的 模拟 。 虚 拟 机 通过 一 组 子 程序 来 模拟 硬件 计算 
机 的 机 器 指令 。 这 一 思想 在 实践 中 的 应 用 始 于 20 世纪 50 年 代表 ， 当 时 ， 第 二 代 计 算 机 
开始 取代 第 一 代 计 算 机 。 为 了 能 够 运行 那些 为 上 一 代 计 算 机 编写 的 程序 ， 新 一 代 的 计算 机 
在 其 指令 集中 包含 了 一 组 微 代 码 ， 用 于 模拟 上 一 代 计 算 机 的 指令 集 。 这 样 ， 为 上 一 代 计 算 
机 编写 的 程序 就 可 以 在 模拟 模式 下 运行 于 新 一 代 计 算 机 上 。 当 为 上 一 代 计 算 机 编写 的 程序 
在 新 一 代 计 算 机 上 重新 编译 后 ， 则 可 以 在 正常 模式 下 以 更 快 的 速度 运行 。 这 种 模拟 模式 可 
以 在 Parallels, VMware 以 及 Hyper-V 等 虚拟 机 软件 中 看 到 ， 这 些 虚拟 机 软件 可 以 模拟 出 
运行 有 特定 操作 系统 的 硬件 计算 机 。 几 乎 在 每 一 种 商用 操作 系统 上 都 存在 的 Java 虚拟 机 
(Java Virtual Machine, JVM) 则 模拟 了 一 种 可 以 执行 Java 字 节 码 的 硬件 计算 机 ， 这 使 得 
Java 程序 具有 非常 优良 的 可 移植 性 。 

第 三 ， 虚 拟 机 指 的 是 对 一 台 机 器 上 具有 独立 存储 分 区 的 若干 计算 机 的 模拟 。 这 种 模 
拟 出 现在 IBM VM 370 以 及 后 继 的 操作 系统 中 。 除了 内 存 容 量 存在 差异 之 外 ， 这 些 IBM 
虚拟 机 是 对 IBM 大 型 计算 机 的 完美 模拟 ( 见 图 10.6 )。 一 个 类 似 的 思想 是 出 现在 Mac OS 
和 Windows 等 操作 系统 中 的 多 任务 特性 ， 它 使 得 虚拟 机 具有 几乎 与 硬件 机 器 相同 的 执行 
速度 ， 且 没有 显著 的 性 能 损失 。 


虚拟 机 监视 器 


ee rare | 














图 10.6 一 个 虚拟 机 操作 系统 将 内 存 划 分 为 若干 互 不 相交 的 区 域 ， 每 个 区 域 会 分 配给 一 个 虚拟 机 
(VM)。 一 个 虚拟 机 包含 一 个 CPU 拷贝 ， 虚 拟 机 的 存储 器 中 则 会 包含 一 个 操作 系统 拷贝 。 
因此 ,不 同 的 虚拟 机 可 以 运行 不 同 的 操作 系统 。 虚 拟 机 监视 器 是 一 个 全 局 的 操作 系统 ， 它 
负责 对 虚拟 机 的 资源 进行 分 配 和 管理 ， 保 证 不 同 的 虚拟 机 能 够 和 谐 相处 在 同一 硬件 机 器 
中 。 为 了 实现 这 一 目的 ，CPU 的 指令 集 被 划分 为 两 类 。 正 常 指令 仅 作用 于 所 在 虚拟 机 的 存 
储 空间 ， 能 够 被 直接 执行 。 敏 感 指令 会 对 整个 系统 (包含 所 有 的 虚拟 机 ) 的 状态 造成 影响 ， 
可 能 不 能 被 直接 执行 。 例 如 ,“ 增 加 存储 器 空间 ”和 “关闭 中 断 ” 即 是 两 条 敏感 指令 。 如 
果 CPU 尝试 执行 一 条 敏感 指令 ， 将 会 触发 中 断 ， 并 使 得 虚拟 机 监视 器 获得 控制 权 。 例 如 ， 
改变 存储 器 容量 的 敏感 指令 会 被 虚拟 机 监视 器 截获 ， 并 确保 这 条 指令 的 执行 不 会 覆盖 其 他 
虚拟 机 的 存储 空间 。 在 大 多 数 情况 下 ， 这 种 类 型 的 虚拟 机 只 会 执行 正常 指令 ， 因 此 ,在 执 
行 速度 上 不 会 有 任何 的 损失 
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第 四 ， 虚 拟 机 指 的 是 操作 系统 内 程序 运行 的 一 种 标准 环境 。 这 种 思想 来 源 于 MIT 
的 Multics 操作 系统 (Organick 1972) 以 及 贝尔 实验 室 的 UNIX 操 作 系 统 (Ritchie 和 
Thompson 1974 )。 这 些 系统 将 进程 定义 为 运行 在 虚拟 机 上 的 一 段 程序 。 这 里 ， 虚 拟 机 指 
的 是 一 种 标准 模版 ， 定 义 了 如 何 支 持 程序 的 输入 和 输出 以 及 如 何 支 持 虚拟 机 与 派生 出 的 子 
虚拟 机 之 间 进 行 交 互 。 每 一 个 用 户 程序 都 会 被 府 入 在 一 个 标准 虚拟 机 中 执行 ( 见 图 10.7 )。 


虚拟 机 模板 grep “d*” < infile | sort -a > outfile 


程 
数 






文件 


“outfile” 


ae E 
EW | 
grep 
ee 
e 上 
父 虚拟 机 ， 子 虚拟 机 | 


图 10.7 Multics 和 UNIX 两 种 操作 系统 引入 了 一 种 虚拟 机 模型 ， 用 于 执行 用 户 的 命令 。 一 个 虚拟 
机 模版 AR) 提供 了 一 个 IN 端口 、OUT 端口 、 指 向 地 址 空间 的 指针 、 指 向 地 址 空间 中 
进程 的 指针 、 一 组 传递 给 进程 的 参数 、 虚 拟 机 的 当前 目录 以 及 一 组 指向 父 虚 拟 机 或 子 虚 拟 
机 的 指针 。 当 用 户 在 shell 程序 的 界面 上 (右上 角 ) 输入 了 一 条 命令 后 ，shell 程序 将 这 条 
命令 解析 为 一 组 构成 成 分 ， 并 且 创建 一 个 虚拟 机 流水 线 去 执行 这 条 命令 ( 右 下 角 )。 在 这 条 
命令 中 ， 搜 索 程 序 “grep” 从 文件 “infile” 中 获得 输入 数据 ， 并 且 仅 输出 那些 以 字符 “d” 
开头 的 数据 行 。 这 些 输 出 数据 然后 又 被 输入 到 排序 程序 “ sort” 中 ， 该 程序 对 所 有 的 输入 
数据 行 按照 字母 顺序 进行 排序 ， 并 将 排序 结果 输出 到 文件 “ outfile” 中 。 通 过 对 虚拟 机 的 
形式 进行 标准 化 、 让 任何 文件 都 可 以 作为 输入 或 输出 以 及 使 用 管道 对 不 同 的 虚拟 机 进行 连 
接 ， 这 些 系 统 仅 使 用 一 种 简单 的 命令 语言 就 能 实现 丰富 多 样 的 功能 
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对 象 


对 象 是 一 种 虚拟 机 结构 ， 来 源 于 20 世纪 60 年 代称 为 “数据 抽象 ”的 编程 实践 ， 并 
逐渐 演化 出 目前 存在 的 120 余 种 复杂 的 “面向 对 象 语言 ” 。 对 象 是 一 种 抽象 实体 ， 可 以 通 
过 一 组 预先 定义 的 操作 对 其 内 容 进行 查询 或 修改 。 对 象 的 内 部 结构 是 对 外 隐藏 的 。 如 上 文 
所 述 ， 文 件 是 一 个 比特 数据 序列 的 容器 ， 仅 能 通过 打开 、 关 闭 、 读 、 写 等 操作 对 其 进行 查 
询 或 修改 ; 文件 的 内 部 结构 是 一 组 散落 在 外 部 存储 器 中 的 记录 。 

一 些 对 象 语言 将 对 象 视 为 数据 结构 ， 且 仅 能 通过 与 其 相关 的 一 组 过 程 对 其 进行 操纵 ; 
这 些 语言 的 典型 实例 包括 Python, Java, C++ 等 。 其 他 对 象 语言 则 将 对 象 视 为 自主 实体 : 
这 些 自主 实体 可 以 接受 外 部 的 请 求 消息 ， 并 且 通 过 响应 消息 将 结果 返回 给 请 求 方 ; 这 些 语 
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言 的 典型 实例 包括 SmallTalk 和 Squeak 等 。 在 分 布 式 计 算 系 统 中 ， 也 通常 将 对 象 视 为 可 
以 接受 和 发 出 消息 的 自主 实体 。 

有 具 有 相似 属性 和 相同 操作 集合 的 一 组 对 象 被 称 为 一 个 类 (也 被 称 为 类 型 )。 一 个 文件 
就 是 由 所 有 文件 形成 的 类 的 一 个 成 员 。 一 个 被 称 为 类 管理 器 的 抽象 机 器 可 以 被 用 作 实现 类 
操作 的 操作 环境 。 例 如 ,文件 管理 器 可 以 打开 、 关 闭 、 读 或 写 任何 一 个 文件 ， 并 且 可 以 定 
位 到 一 个 文件 在 存储 器 中 的 所 有 成 分 ( 见 图 10.5 ) 。 

对 象 类 通常 被 组 织 为 一 个 继承 关系 层级 结构 ， 使 得 一 个 对 象 具有 的 属性 被 传播 到 其 
子 类 对 象 中 。 例 如 : 字 节 文件 可 能 是 比特 文件 的 子 类 ; 目录 可 能 是 字 节 文件 的 子 类 ， 其 文 
件 内 容 是 一 组 字符 串 和 一 组 文件 句柄 之 间 的 关联 关系 。 

一 个 对 象 通常 关联 一 个 互 斥 锁 ， 从 而 保证 在 一 个 时 间 点 上 只 有 一 个 进程 能 够 使 用 该 
对 象 。 这 样 做 的 目的 是 防止 在 并 发 环境 中 可 能 出 现 的 竞争 条 件 ( 即 ， 多 个 进程 同时 读 写 一 
个 对 象 中 的 数据 ， 从 而 使 得 最 终 的 数据 状态 存在 不 确定 性 )。 

对 象 在 很 多 时 候 被 认为 是 一 种 首要 设计 原理 ， 因 为 其 很 好 地 体现 了 “抽象 ”这 种 基 
础 性 原理 。 然 而 ， 对 象 实际 上 也 是 一 种 非常 先进 的 概念 ， 因 为 其 提供 了 一 种 统一 的 方式 去 
处 理 结构 和 同步 这 两 个 方面 的 问题 。 新 手 程 序 员 会 觉得 对 象 这 个 概念 不 好 理解 ， 这 主要 是 
因为 他 们 还 没有 理解 虚拟 机 、 信 息 隐 藏 、 继 承 、 同 步 等 基本 概念 。 


客户 端 与 服务 器 


客户 端 - 服务器 模型 提供 了 在 分 布 式 网 络 计算 系统 中 对 不 同 进程 之 间 的 交互 进行 组 织 
的 简洁 方式 *。 服 务 器 是 一 个 能 够 响应 特定 服务 请 求 的 进程 。 客 户 端 则 是 一 个 可 以 发 出 服务 
请 求 的 进程 。 在 一 个 网 络 中 ， 客 户 端 和 服务 器 通常 (但 不 是 绝对 ) 被 不 同 的 硬件 机 器 所 扮 
演 。 客 户 端 和 服务 器 之 间 的 请 求 和 响应 数据 以 消息 的 形式 在 网 络 中 传播 。 例 如 ， 一 个 网 络 
文件 服务 器 存放 了 该 网 络 所 有 用 户 的 文件 ， 在 用 户 工作 站 上 的 客户 端 进程 发 出 请 求 去 读 写 
文件 。 一 个 认证 服务 器 与 用 户 工作 站 上 的 登录 客户 进行 交互 ， 在 用 户 登 录 过 程 中 对 其 身份 
进行 认证 。 一 个 web 服务 器 与 客户 端 浏 览 器 进行 交互 ， 将 所 请 求 的 web 页 面 传递 给 客户 端 。 

客户 端 一 服务 器 的 思想 很 简单 ， 但 其 实现 则 往往 非常 复杂 。 设 计 者 需要 应 对 关于 通 
信 、 错 误 控 制 、 同 步 等 很 多 非常 细节 的 技术 问题 (Birrell A Nelson 1984 )。 

在 一 些 系统 中 ， 相 互 交 互 的 两 个 进程 之 间 的 客户 端 或 服务 器 角色 可 以 灵活 变化 。 在 这 
些 情况 下 ， 这 两 个 进程 被 称 为 对 等 ( P2P) 进程 。 很 多 网 络 服务 都 被 组 织 为 这 种 方式 。 例 如 ， 
互联 网 TCP 协议 会 运行 在 网 络 中 每 一 台 计 算 机 的 一 个 本 地 进程 中 ， 本 地 的 TCP 进程 可 以 向 
远程 的 另 一 个 TCP 进程 发 出 连接 请 求 ， 也 可 以 接受 来 自 远程 TCP 进程 的 连接 请 求 。 
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总 结 


设计 在 计算 领域 的 发 展 历程 中 始终 是 一 个 核心 议题 。 计 算 领 域 第 一 代 的 设计 者 花费 
了 很 大 的 精力 去 实现 高 效 、 可 靠 的 自动 化 计算 过 程 。 他 们 为 我 们 留 下 了 一 个 非常 好 的 设计 
方案 ， 即 存储 程序 计算 机 (又 被 称 为 冯 … 诺 伊 曼 体系 结构 )。 这 种 设计 方案 至 今 仍 在 使 用 。 

机 器 的 指令 集 是 存储 程序 计算 机 的 用 户 接口 。 程 序 员 设 计 出 算法 ， 并 将 算法 用 指令 集 

217) ”进行 编码 。 从 一 开始 ， 程 序 员 就 发 现 他 们 使 用 了 大 量 的 时 间 去 寻找 程序 中 的 错误 ; 为 此 ,他 
们 发 明了 调试 技术 。 他 们 发 现 ， 程 序 设计 是 一 个 非常 复杂 且 易 于 出 错 的 活动 。 于 是 开始 探 
索 如 何 才能 设计 出 可 靠 、 可 用 、 安 全 (DRUSS) 的 程序 ， 这 种 探索 至 今 仍 在 持续 。 经 过 多 年 
的 努力 ， 他 们 开创 了 程序 设计 行业 和 软件 工业 ， 其 中 涉及 了 关于 错误 预防 或 确认 的 大 量 技 
术 手 段 。 即 使 已 经 存在 了 丰富 的 技术 积累 ， 程 序 中 的 错误 目前 仍然 是 一 个 严重 的 问题 。 

设计 不 仅仅 是 通过 对 硬件 成 分 和 指令 的 组 织 来 解决 问题 ， 更 是 关注 如 何 为 计算 机 的 
用 户 产生 价值 。 设 计 者 应 该 去 理解 用 户 会 如 何 使 用 程序 ， 去 理解 什么 会 使 用 户 感到 高 兴 或 
愤怒 。 设 计 者 应 该 掌握 足够 的 设计 技巧 "。 

在 寻找 设计 优秀 软件 的 系统 性 方法 的 过 程 中 ， 设 计 者 关注 于 5 个 成 功 的 设计 准则 : 需 
求 、 正 确 性 、 容 错 性 、 时 效 性 、 适 用 性 。 需 求 关注 于 系统 行为 的 准确 描述 ; 正确 性 关注 于 如 
何在 构造 过 程 中 防止 错误 的 发 生 ; 容错 性 关注 于 在 错误 被 修正 /去 除 之 前 最 小 化 错误 的 后 果 ; 
实效 性 关注 于 如 何 对 系统 进行 配置 从 而 保证 计算 结果 的 准时 性 ; 适用 性 关注 于 用 户 满意 度 。 

在 设计 计算 系统 和 软件 的 实践 中 ， 人 们 探索 出 5 种 有 效 的 设计 模式 : 层级 式 聚 合 ( 体 
现在 抽象 、 分 解 、 模 块 化 、 信 息 隐 藏 中 ) 封装 、 级 别 、 虚 拟 机 和 对 象 。 这 些 模 式 被 实现 
在 语言 、 应 用 程序 、 操 作 系统 的 结构 中 。 虽 然 不 是 灵丹妙药 ， 但 人 们 普遍 认为 这 些 结构 有 
助 于 实现 上 述 5 种 设计 准则 和 更 一 般 性 的 DRUSS 目标 。 

由 于 篇 幅 限制 ， 我 们 不 能 对 其 他 更 多 的 软件 设计 原理 进行 介绍 。 即 使 对 于 项 目 管理 、 
错误 限制 、 容 错 、 网 络 结构 、 操 作 系统 结构 、 正 确 性 等 问题 ， 我 们 所 讨论 到 的 设计 原理 也 
仅仅 是 非常 小 的 一 部 分 。 设 计 是 一 个 具有 丰富 内 涵 的 领域 ， 对 于 决定 一 个 计算 系统 的 成 败 

[218] 具有 非常 关键 的 作用 。 如 何 进行 优秀 的 设计 可 能 是 计算 领域 中 最 大 的 一 个 挑战 。 
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Great Principles of Computing 


网 络 





人 脑 与 计算 机 将 会 非常 紧密 地 结合 在 一 起 ， 由 此 产生 的 合作 关系 将 以 大 脑 未 曾 有 过 
的 方式 思考 ， 并 以 一 种 当前 信息 处 理 设备 未 曾 达 到 的 方式 进行 信息 处 理 。 
—J. C. R. Licklider 
基于 兄 余 设计 的 数字 计算 机 新 技术 使 得 廉价 不 可 靠 的 链接 变 得 潜在 可 用 ， 网 络 从 一 
开始 就 是 专门 为 数据 传输 和 生存 力 而 设计 的 。 





Paul Baran 
随 着 网 络 的 增长 ， 我 们 可 能 会 看 到 “计算 机 设施 ”的 广泛 出 现 ， 就 像 如 今 的 电力 和 
电话 设施 一 样 ， 在 全 国 各 地 为 家 庭 和 办 公 室 服务 。 





Leonard Kleinrock 


很 难 想象 ， 目 前 一 个 已 连接 世界 上 所 有 计算 机 的 网 络 在 1960 年 时 还 仅仅 是 一 个 梦 
想 。 在 20 世纪 60 年 代 中 期 ， 美 国 国防 部 朝 着 这 个 梦想 迈 出 了 第 一 步 。 它 开始 筹划 名 为 
ARPANET 的 资源 共享 试验 项 目 ， 并 于 1969 年 开始 在 两 台 主 机 (host， 网 络 术 语 ， 指 连 在 
一 起 的 计算 机 系统 ) 上 运行 ARPANET '。 

ARPANET 是 演化 为 如 今 互 联网 的 技术 链 中 的 第 一 个 项 目 ， 因 为 初始 的 设计 不 能 扩 
展 为 大 型 网 络 ， 可 扩展 “互联 网 ”( 或 者 说 网 络 的 网 络 ) 的 想法 在 1973 年 才 被 引入 。 经 过 
10 年 的 测试 和 提升 ， 互 联网 的 设计 成 为 官方 标准 ， 而 几乎 没 人 注意 到 ARPANET 在 1989 
年 被 废止 了 。 万 维 网 在 20 世纪 90 年 代 早期 就 覆盖 了 互联 网 ， 网 络 规模 的 增长 非常 显著 ， 
1981 年 接 入 的 主机 数 大 约 为 200 台 ，1990 年 增长 到 了 20 万 ，2004 年 为 2 亿 ， 而 2014 年 
为 10 亿 。 如 今 的 互联 网 包含 数 以 百 万 计 的 分 支 网 络 ， 这 也 是 网 络 可 以 为 它 的 成 员 带 来 巨 
大 价值 的 一 个 有 力 证 明 ?。 

这 一 卓越 的 技术 成 就 是 设计 者 巧妙 结合 了 第 1 章 中 所 有 6 类 计算 基本 原理 的 结果 。 
互联 网 的 设计 使 得 其 规模 在 30 年 间 增 长 了 7 个 数量 级 ， 且 仍 保持 可 靠 的 运行 。 作 为 一 
个 案例 研究 ， 我 们 将 回顾 互联 网 的 每 个 主要 部 分 ， 并 说 明 每 一 部 分 遵循 的 是 哪 一 条 计算 
原理 。 

网 络 的 概念 比 互 联网 的 历史 要 悠久 得 多 。 在 1750 年 左右 数学 家 欧 拉 (Leonhard 
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Euler) 9 — Uc i i m P 24 AE BE AP AR R EE a AT HP, JIA EA Je r E 
(Königsberg) 的 七 座 桥 都 走 遍 。 从 那 时 开始 ， 图 论 成 为 数学 的 一 个 主要 分 支 ， 用 以 研究 物 
体 之 间 的 关系 。 网 络 包括 节点 〈 也 称 为 顶点 ) 集合 和 连接 其 中 一 些 节点 的 链接 (也 称 为 边 ) 
集合 。 链 接 通 常 代表 实体 (例如 信和 号、 消息 、 商 品 、 请 求 和 承诺 ) 从 一 个 节点 移动 到 为 一 
个 节点 的 路 径 。 电 气 工程 师 发 现 了 流体 、 能 量 、 电 流 和 电压 守恒 定律 ， 并 将 这 些 定律 应 用 
于 设计 具有 预期 信号 转换 功能 的 电气 网 络 。 工 业 工 程 师 和 运筹 研究 人 员 开 发 了 多 种 类 型 的 
网 络 模型 系统 ， 包 括 制造 、 和 运输、 库存、 通信 和 队列 ; 网 络 模型 使 得 能 够 对 这 些 网 络 系统 
进行 准确 的 性 能 预测 。 如 今 社会 学 家 也 使 用 网 络 来 映射 一 个 群体 内 成 员 之 间 的 通信 关系 ， 
并 对 权力 和 影响 力 进行 推理 。 互 联网 展现 了 这 些 网 络 的 不 同 侧面 : 它 是 一 个 通信 系统 、 消 
息 的 传输 系统 、 数 据 的 信息 检索 系统 、 服 务 的 队列 系统 、 存 储 子 系统 的 库存 系统 和 社交 网 
络 的 支撑 系统 。 


弹性 网 络 


在 20 世纪 60 年 代 早 期 国防 通信 工程 师 开 始 寻 找 电 话 网 络 的 替代 方案 。 国 防 官员 
对 于 使 用 电话 网 络 进行 通信 非常 担忧 ， 因 为 电话 网 络 是 基于 电路 交换 原则 的 ， 这 意味 着 在 
拨打 一 个 电话 号 码 时 会 使 得 一 系列 的 机 械 开 关 打 开 ， 从 而 提供 从 呼叫 基站 到 接收 基站 的 直 
接 电 路 连接 。 电 话 网 络 已 经 演化 为 一 个 由 “干线 ”连接 的 区 域 交换 中 心 的 集合 ， 区 域 交换 
中 心 与 本 地 交换 中 心 相连 ， 从 而 进一步 与 家 庭 或 者 办 公 室 相 连 。 这 一 网 络 在 遭遇 自然 灾害 
(例如 火灾 或 者 洪水 ) 或 者 人 为 破坏 (例如 怒 怖 袭击 ) 时 可 能 会 被 严重 损毁 ， 因 为 破坏 网 络 
中 的 一 个 或 多 个 节点 就 可 能 完全 损毁 网 络 。 这 一 网 络 不 仅 不 安全 条 电话 线 可 以 很 容 
易 地 被 窃听 一 一 而 且 在 面 对 敌 对 行动 时 也 是 不 可 靠 的 ， 因 此 电话 网 络 被 视 为 国防 中 的 一 个 
严重 弱点 。 

Leonard Kleinrock (1961, 1964) 和 Paul Baran ( 1964a, b) 首先 发 现 了 上 述 电 话 网 
络 的 替代 方案 。Kleinrock 阐述 并 分 析 了 一 个 消息 交换 系统 的 随机 模型 。Baran 提出 了 电话 
通信 的 一 个 新 设计 : 模拟 语音 可 以 被 数字 化 ， 产 生 的 比特 流 被 分 解 为 数据 包 ， 经 过 存储 转 
发 系统 到 达 目 的 地 ， 然 后 被 重新 组 装 为 原始 比特 流 ”。 一 个 数字 文件 也 可 以 类 似 地 将 比特 
聚集 为 数据 包 。 网 络 本 身 包含 很 多 宛 余 路 径 ， 使 得 数据 包 在 网 络 某 些 部 分 损坏 的 情况 下 可 
通过 另外 的 路 由 到 达 目 的 地 。 可 配置 的 路 由 器 负责 处 理 路 由 ， 它 们 接收 消息 ， 然 后 将 消息 
转发 到 离 目 的 地 更 近 一 跳 的 路 由 器 。 现 代 网 络 是 两 种 结构 的 组 合 ， 包 括 面 向 长 距离 主干 网 
的 网 状 结构 和 面向 本 地 连接 的 中 心 辐射 型 结构 ( 见 图 11.1 )。 局 域 网 可 以 有 多 种 形式 ( 见 
图 11.2 )。 
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图 11.1 工程 网 络 (例如 电话 网 络 或 者 互联 网 ) 包括 很 多 类 似 这 幅 高 度 简化 的 图 中 那样 的 链接 。 一 
个 主干 网 络 (白色 方 框 ) 为 局 域 网 (黑色 大 圆 ) 服务 ， 局 域 网 与 桌面 电脑 、 服 务 器 或 移动 设 
备 (黑色 小 圆 ) 等 计算 机 相连 。 局 域 网 通过 多 个 链接 (点 线 ) 与 网 络 相连 。 主 干 网 络 被 设 
计 为 网 状 结构 ， 来 保证 单一 主干 节点 的 丢失 不 会 将 网 络 分 割 成 孤立 的 、 未 连接 的 碎片 。 主 
干 网 络 和 局 域 网 节点 用 数据 包 路 由 器 实现 。 在 互联 网 中 ， 局 域 网 被 称 为 LAN (本 地 区 域 网 
络 )， 主 干 网 络 被 称 为 WAN (广域网 )。LAN 和 WAN (黑色 大 圆 ) 的 连接 点 用 网 关 路 由 器 
实现 。 网 关 路 由 器 将 数据 包 由 WAN 信号 格式 转换 为 LAN 信号 格式 


数据 包 交 换 


一 个 数据 包 是 一 个 比特 序列 ， 其 中 包含 了 一 些 信 头 和 一 个 数据 块 ( 见 图 11.3) 4 
据 包 交 换 是 一 种 网 络 运行 模式 ， 它 使 得 如 图 11.1 中 的 主干 网 中 称 为 路 由 器 的 子 网 设备 将 
数据 包 运输 到 它们 的 目的 主机 。 接 下 来 的 讨论 将 分 析 数 据 包 网 络 的 一 些 原 理 。 

数据 包 交 换 是 之 前 章节 提 到 的 多 路 复 用 原理 的 一 个 实例 。 多 路 复 用 意味 着 将 资源 分 
为 块 ， 然 后 将 块 分 配给 不 同 的 个 体 。 例 如 ， 主 存 是 通过 将 其 分 为 页 来 实现 多 路 复 用 的 ; 
页 可 以 被 快速 放置 在 方便 使 用 的 地 方 ， 当 不 被 用 到 的 时 候 可 以 被 移 除 。 磁 盘 是 通过 将 许 
多 文件 分 为 记录 并 允许 记录 分 散在 磁盘 上 实现 多 路 复 用 的 。 信 道 是 通过 将 每 一 个 信号 流 
分 解 为 数据 包 并 在 信道 上 传输 数据 包 来 实现 多 路 复 用 的 ; 同时 多 个 信号 流 可 以 共享 同一 
信道 。 

数据 包 多 路 复 用 是 20 世纪 50 年 代 电 话 系统 中 使 用 的 时 分 多 路 复 用 中 的 一 种 。 例 如 ， 语 
音 通常 是 低 带宽 的 ， 被 数字 化 并 压缩 为 数据 包 的 模拟 语音 信号 可 以 在 所 需 时 间 的 一 小 部 分 
时 间 内 就 被 发 送 ， 因 此 电话 工程 师 得 以 通过 单 根 线 缆 就 可 以 无 损 或 保 真 地 获得 多 个 数字 化 
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通话 。 


图 11.2 


图 11.3 





b) 由 环 相 连 的 主机 


c) 由 无 线 相连 的 主机 
一 个 局 域 网 (LAN) 通过 短 距离 链接 与 一 组 计算 机 相连 。 局 域 网 在 家 庭 、 办 公 室 和 建筑 中 
用 到 ， 其 中 一 台 计 算 机 充当 互联 网 的 网 关 。 以 太 网 配置 (图 a) 将 所 有 的 计算 机 连接 到 一 
个 将 数据 包 发 送 到 目标 计算 机 的 共享 交换 机 上 。 环 配置 (图 b) 将 数据 包 从 一 个 计算 机 环 
形 传递 到 下 一 个 计算 机 。 无 线 配 置 (图 c) 使 用 无 线 电信 号 以 及 802.11 协议 通过 基站 来 交 
换 数 据 包 。 在 这 些 配置 中 都 不 需要 路 由 器 ， 因 为 每 一 台 计 算 机 都 能 看 到 所 有 的 数据 包 但 只 
选择 发 送 给 自己 的 。 然 而 ， 能 够 看 到 所 有 数据 包 是 一 个 安全 弱点 ， 因 为 一 台 不 怀 好 意 的 计 
算 机 可 能 监听 其 他 的 数据 包 或 者 发 送 欺 骗 数 据 包 





来 源 域 到 达 域 长 度 域 数据 域 


在 数据 包 交 换 中 ， 源 站 的 数据 流 被 分 解 为 块 然 后 插入 数据 包 中 。 如 图 所 示 ， 在 这 个 互联 网 
数据 包 的 简化 视图 中 ， 来源 域 包括 发 送 站 的 地 址 ， 到 达 域 包括 接收 站 的 地 址 ， 长 度 域 表 明 
了 数据 包 的 总 大 小 。 数 据 域 包括 来 自 原始 数据 流 的 一 个 数据 块 ， 这 个 数据 块 可 能 包括 一 个 
序列 号 ， 使 得 接收 协议 能 够 将 数据 块 按照 它们 原来 的 顺序 重新 组 装 。 数 据 包 从 一 个 路 由 器 
被 运 到 另 一 个 路 由 器 ， 在 每 一 跳 中 逐步 接近 接收 方 。 如 果 一 个 内 部 网 络 节点 或 者 链接 发 生 
故障 ， 路 由 器 会 进行 重新 配置 ， 将 数据 包 通 过 其 他 路 由 发 送 





数据 包 网 络 吸引 人 的 原因 主要 有 三 点 : 第 一 ， 它 同时 迎合 了 不 同 流量 类 型 的 需要 。 
例如 ， 语 音 流 量 是 固定 速率 〈 通 常 采样 率 为 每 秒 44 000 ) 的 持续 很 长 时 间 的 比特 流 。 但 
是 在 网 络 服务 器 向 发 出 请 求 的 客户 端 发 送 页 面 时 ， 网 络 流量 通常 是 短暂 而 高 强度 的 脉 
冲 。 数 据 包 网 络 在 传输 数据 包 时 ， 并 不 考虑 数据 包 中 是 持续 的 语音 还 是 脉冲 式 数据 流 。 


第 二 ， 数 据 包 网 络 天 然 就 比 基 于 电话 的 数据 网 络 高 效 。 电 话 网 络 通过 两 个 步 又 处 理 
呼叫 : 

1) 拨号 以 建立 回路 。 

2 ) 在 回路 上 传输 。 

早期 的 网 络 机 制 ， 比 如 最 初 的 ARPANET 协 议和 X.25 协议 ， 会 仿照 电话 网 络 的 做 
法 ， 在 传输 数据 前 建立 一 个 虚拟 回路 。 但 是 设计 师 很 快意 识 到 ， 使 用 数据 包 就 不 需要 建立 
保持 的 回路 。 发 送 方 仅仅 需要 发 送 数据 包 ， 网 络 为 数据 包 进 行路 由 ， 然 后 接收 方 在 数据 包 
到 达 时 做 出 响应 。 此 外 ， 即 使 没有 数据 包 流 动 ， 电 话 回路 依然 会 保持 通道 打开 。 但 是 数据 
包 网 络 只 要 有 可 用 的 带宽 ， 即 使 没有 回路 ， 数 据 包 也 可 以 被 发 送 。 因 此 ， 数 据 包 更 好 地 利 
用 了 带宽 。Louis Pouzin 在 他 建立 在 法 国 的 CYCLADES 网 络 中 使 用 了 术语 数据 报 来 描述 
这 种 不 需要 预先 设置 协议 就 可 以 携带 数据 流 的 数据 包 。Vinton Cerf 和 Robert Kahn 在 TCP 
协议 中 设计 了 一 个 类 似 的 方案 ， 接 下 来 很 快 就 会 讨论 到 。 

第 三 ， 数 据 包 网 络 在 链接 或 者 路 由 器 失灵 时 可 以 启用 动态 重 构 。 路 由 器 会 接收 数据 
包 并 转发 到 离 目 的 地 更 近 一 跳 的 下 一 个 路 由 器 。 如 果 一 个 路 由 器 检测 到 转发 路 径 或 者 下 一 
跳 的 路 由 器 损坏 了 ， 它 可 以 从 另 一 条 路 径 发 送 数据 包 。 偶 尔 会 遇 到 数据 包 在 传输 时 链接 或 
者 路 由 器 损坏 从 而 丢失 的 情况 。 但 这 并 不 是 一 个 问题 ， 因 为 传输 协议 会 检测 到 数据 包 丢 失 
并 重新 发 送 它 们 。 

路 由 器 在 一 个 队列 里 存储 接收 到 的 数据 包 ， 然 后 使 用 路 由 表 将 它们 转发 到 离 目的 地 
更 近 的 下 一 个 路 由 器 。 产 生路 由 表 的 路 由 算法 负责 寻找 到 达 目 标 主 机 的 最 短路 径 (由 路 由 
器 之 间 的 跳 数 衡量 )。 路 由 算法 通常 在 后 台 运 行 ， 因 此 路 由 表 会 被 持续 更 新 以 表示 当前 网 
络 的 连通 性 ( 见 图 11.4 )。Edsger Dijikstra (1959) 被 认为 是 如 今 用 于 寻找 节点 间 最 短路 
径 的 高 效 算 法 的 发 明 者 。 当 路 径 长 度 使 用 延迟 或 者 开销 而 不 是 跳 数 来 度量 时 ， 也 会 使 用 其 
他 算法 来 计算 最 短路 径 。 

因为 网 络 采用 存储 转发 的 设计 ， 路 由 器 成 为 潜在 的 交通 拥塞 点 。 如 果 涌 人 一 个 路 由 
器 的 流量 使 它 的 队列 溢出 会 发 生 什 么 呢 ? 一 种 可 能 是 丢掉 数据 包 ， 并 让 传输 协议 检测 到 这 
一 点 然后 重新 发 送 它 们 ， 如 果 丢 失 率 过 高 ， 则 进行 传输 回 退 。 一 种 不 太 常 见 的 可 能 是 使 用 
链接 协议 阻止 一 个 路 由 器 发 送 数据 包 ， 除 非 接收 方 有 空间 能 够 接收 。 这 种 策略 防止 了 数据 
包 丢 失 的 情况 ， 但 是 增加 了 主机 与 网 络 的 接 人 点 的 拥塞 ， 降 低 了 它们 的 传输 速率 。 后 一 种 
策略 在 链接 管理 协议 中 被 称 为 “流量 控制 ”。 因 此 毫 不 奇怪 ， 队 列 网 络 模型 (第 9 章 ) 对 
于 预测 存储 转发 网 络 的 平均 产 出 率 和 传输 时 间 非 常 有 效 。 
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图 11.4 ee eee ee eee 
ich ge kiirva TR es 。 正 常 的 路 
由 表 (下 方 左边 的 一 栏 ) 会 告诉 路 由 器 对 于 一 个 有 着 特定 目的 地 的 数据 包 应 a 
E M UOOA MERET A.C; SLEBLO AE ARESE A, 
B，E。 如 果 路 由 器 B 出 现 故障 ， 重 构 算法 会 修改 路 由 表 使 所 有 流量 绕 开 B ( 右 下 方 ), 现 
在 从 主机 0 到 主机 2 的 数据 包 会 走 A，C，D，E。 注 意 到 如 果 A, CRE EMKE, 会 有 
一 个 主机 与 主干 网 断 开 。 如 果 D 出 现 故 障 ， 从 主机 2 到 主机 1 的 数据 包 会 走 E, B, A, C 


互联 网 络 协议 

数据 包 交 换 和 可 重 构 性 原理 不 足以 使 一 个 网 络 可 用 。 互 联网 包含 数 亿 主机 和 数 以 
百 万 计 的 局 域 网 。 用 户 对 于 这 些 主机 提供 的 服务 感 兴趣 ， 那么 一 个 用 户 的 进程 是 如 何 寻 址 
到 目标 服务 器 ， 从 而 可 以 发 送 请 求 服务 的 数据 包 并 接收 响应 的 数据 包 呢 ? 寻 址 方法 不 应 
依赖 于 局 域 网 的 变幻 无 常 或 者 网 络 上 可 用 的 路 由 器 。 如 果 没 有 统一 的 寻 址 服务 的 方法 ， 局 
域 网 之 间 的 差异 以 及 可 用 服务 的 变动 会 使 得 网 络 变 得 混乱 从 而 不 可 用 。 

Vint Cerf 和 Bob Kahn 在 1974 年 针对 这 一 问题 提出 了 一 个 解决 方案 。 他 们 提出 了 一 
个 非常 大 的 地 址 空间 ， 其 中 的 地 址 有 着 足够 的 位 数 使 得 互联 网 中 的 每 一 台 计 算 机 都 有 自己 
唯一 的 地 址 。 他 们 设计 了 一 个 叫做 Internet Protocol (IP) 的 协议 ， 给 定 某 服务 器 的 唯一 地 
址 就 能 定位 到 它 ， 这 些 唯一 的 地 址 称 为 IP 地 址 。 
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一 个 IP 地 址 有 32 位 ， 被 表示 成 4 个 8 比特 的 字 节 。 一 个 字 节 可 以 编码 一 个 0 到 
255 (2°-1) 的 整数 。 卫 地 址 的 标准 记 法 包含 四 个 由 点 号 分 隔 的 整数 (从 0 到 255 )， 例 如 
192.168.3.55. IP 地 址 的 总 数 是 22， 或 者 说 大 约 40 亿 。 随 着 移动 设备 、 家 电 以 及 任何 包 
含 嵌 入 式 计 算 机 的 设备 的 普及 ， 互 联网 快速 增长 ， 如 今 出 现 了 128 位 的 IP 地 址 。 

许多 局 域 网 包含 了 一 项 叫做 动态 主机 配置 协议 (DHCP) 的 服务 来 减少 网 络 中 对 固定 
IP 地 址 的 需求 。 当 一 个 计算 机 启动 后 ， 它 从 一 个 叫做 DACP 服务 器 的 本 地 计算 机 那里 请 
IP 地 址 ，DHCP 服务 器 会 从 本 地 子 网 地 址 池 中 为 其 分 配 一 个 临时 IP。 因 为 通常 实际 登 
录 的 主机 数量 比 所 有 连接 到 局 域 网 的 主机 数量 少 得 多 ， 这 一 策略 使 得 一 个 给 定 的 卫 地 址 
集合 能 够 被 一 个 大 得 多 的 主机 集合 所 共享 。 

IP 协议 不 保证 一 个 数据 包 会 到 达 它 的 目的 地 。 在 路 由 过 程 中 很 多 事情 都 可 能 出 错 ， 
例如 ， 一 个 路 由 器 可 能 不 知道 一 条 被 选中 用 于 转发 数据 包 的 链接 并 不 工作 ; 涌 入 一 个 路 由 
器 的 数据 包 可 能 因为 路 由 器 的 缓冲 区 已 经 被 其 他 数据 包 填 满 而 被 丢弃 ; 链接 上 的 噪声 可 能 
会 算 改 数据 包 中 的 某 一 位 ， 使 得 接收 路 由 器 无 法 对 信 头 字段 进行 解码 。 这 些 或 者 其 他 错误 
可 能 导致 数据 包 在 到 达 目 的 地 之 前 丢失 或 者 损坏 。 了 P 协议 之 所 以 被 称 为 一 个 “ 尽 最 大 努 
力 的 数据 报 协议 ”是 因为 它 在 数据 包 没 有 遇 到 错误 时 将 数据 包 当 做 数据 报 发 送 ， 并 且 不 会 
尝试 重新 发 送 丢 失 或 者 损坏 的 数据 包 。 

Vint Cerf 将 IP 协议 与 邮政 服务 中 只 处 理 明信片 的 服务 版 本 做 了 类 比 。 一 张 明 信 片 就 
像 一 个 数据 包 ， 包含 到 达 域 、 发 送 域 以 及 一 个 存放 消息 的 有 限 区 域 。 当 你 邮寄 一 张 明 信 片 
时 ;你 知道 它 可 能 不 会 被 送 达 ,或 者 可 能 在 运输 中 被 损坏 ; 你 不 知道 投递 会 花 多 长 时 间 。 
被 邮寄 的 一 系列 明信片 也 不 保证 它们 会 按照 发 送 的 顺序 被 接收 : 每 一 张 明 信 片 可 能 会 被 不 
同 的 邮政 车 或 者 飞机 按照 不 同 的 路 线 运输 。 

尽 最 大 努力 的 数据 报 投递 的 原则 是 简单 有 效 的 。 它 将 数据 块 封 人 一 个 IP 数据 包 中 
从 而 数据 包 可 以 起 到 数据 报 的 作用 «(Cerf and Kahn 1974, Cerf 等 1974 )， 这 被 运用 在 
CYCLADES 网 络 (Pouzin 1973, 1974) 以 及 TCP 协议 的 最 初 设计 中 。1977 年 数据 报 功 
能 从 TCP 中 被 剥离 成 了 单独 的 UDP 协议 。TCP 和 UCP 是 运行 于 IP 协议 之 上 的 并 行 服务 。 
IP, TCP 和 UDP 在 1981 年 的 规范 形成 了 如 今 标 准 的 基础 。 


传输 控制 协议 


对 于 很 多 应 用 我 们 需要 一 个 比 IP 更 复杂 的 协议 ， 从 而 可 以 在 一 个 可 能 丢失 数据 包 的 
网 络 中 以 很 高 的 投递 准确 率 来 运输 数据 。 由 Vinton Cerf 和 Robert Kahn ( 1974) 设计 的 传 
输 控 制 协议 (TCP) 完成 了 这 一 目标 ， 它 使 得 文件 能 够 被 可 靠 投 递 ， 即 使 携带 文件 的 数据 
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报 是 不 可 靠 的 。 

TCP 使 用 端 到 端的 纠 错 原则 在 丢失 网 络 上 获得 可 靠 性 ( Saltzer 等 1984 )。 这 一 想法 
是 让 接收 端 发 送 “ 确 认 数 据 包 ”给 发 送 端 ， 从 而 可 以 判断 出 有 多 少数 据 流 已 经 被 成 功 接 
收 。 由 于 确认 数据 包 可 能 丢失 ， 发 送 端 如 果 在 一 个 设 定 的 期 限 内 没有 收 到 确认 数据 包 ， 它 
会 自动 重新 发 送 数据 包 ， 同 时 接收 方 会 忽略 由 于 重 发 造成 的 重复 数据 包 。 这 一 设计 在 连 
接 结束 时 检测 和 替换 丢失 的 数据 包 ， 并 不 需要 假定 网 络 上 正在 发 生 任 何 查 错 或 纠 错 的 操 
作 。 当 然 ， 网 络 中 的 纠 错 机 制 (例如 链接 中 的 汉 明 码 ) 降低 了 丢 包 率 ， 提 高 了 TCP 的 传输 
速率 。 

TCP 的 操作 准则 可 以 继续 借助 Vint Cerf 关于 邮政 服务 的 类 比 来 进一步 理解 。 发 货 人 
在 只 使 用 明信片 的 情况 下 怎样 发 送 一 本 书 呢 ? 如 果 托 运 人 和 接收 人 已 经 对 于 在 发 送 前 如 何 
拆 解 一 本 书 以 及 发 送 后 如 何 重新 组 装 一 本 书 达 成 了 一 致 ， 那 么 就 可 以 做 到 发 送 一 本 书 。 发 
送 方 将 书页 拆 分 成 小 的 碎片 并 将 碎片 贴 在 明信片 上 ， 然 后 用 序列 号 标记 明信片 并 保存 所 有 
明信片 的 备份 。 接 收 方 将 收 到 的 明信片 按 合适 的 顺序 (由 序列 号 决定 ) 放置 ， 然 后 取 下 明 
信 片 上 的 碎片 将 它们 恢复 成 一 本 书 。 

为 了 告知 发 送 方 知道 哪些 明信片 已 经 被 接收 ， 接 收 方 每 一 次 返回 一 个 确认 (ACK) 明 
信 片 概述 目前 有 哪些 明信片 已 经 被 接收 。 发 送 方 收 到 ACK 后 ,会 丢掉 所 有 已 被 确认 接收 
的 明信片 的 备份 。 然 后 是 重要 的 一 步 : 如 果 发 送 方 在 一 个 超时 限制 内 没有 收 到 ACK， 它 
会 自动 重 发 明信片 ， 重 复 这 样 的 操作 直到 收 到 这 一 明信片 的 ACK， 或 者 直到 发 送 超时 并 
报告 发 送 失 败 ， 这 一 方法 克服 了 网 络 中 ACK 可 能 丢失 的 问题 。 接 收 方 会 忽略 来 自发 送 方 
的 重复 明信片 。 

这 一 设计 在 面 对 一 本 真实 的 纸 质 书 时 可 能 会 显得 很 笨拙 和 混乱 ,但 是 面 对 数 字 文 档 ， 
这 一 设计 是 简单 、 干 净 且 快速 的 。TCP 在 一 个 有 噪声 的 网 络 上 会 花费 更 长 的 时 间 ， 因 为 
重 发 和 确认 降低 了 它 的 速度 ， 但 是 只 要 一 个 数据 包 到 达 的 概率 不 是 0，TCP 最 终 会 传送 整 
个 文件 。 


客户 端 与 服务 器 


TCP 使 得 大 量 网 络 服务 成 为 客户 端 与 服务 器 的 形式 。 客 户 端 与 服务 器 是 它们 各 自主 
机 操作 系统 上 运行 的 自主 且 持 续 的 进程 。 系 统 的 一 个 客户 端 进程 通过 TCP 与 另 一 个 系统 
上 的 服务 器 进程 相连 接 。 通 过 这 个 连接 ， 客 户 端 产生 请 求 ， 服 务 器 端 作 出 响应 。 

TCP 也 可 以 用 于 对 等 网 络 的 交互 ， 即 两 端的 进程 都 可 以 发 送 请 求 和 做 出 响应 。 

与 网 络 接口 相连 的 进程 依赖 于 本 地 操作 系统 的 多 路 复 用 来 处 理 进入 的 数据 包 ， 并 将 


这 些 数 据 包 传递 到 它们 相对 应 的 服务 进程 。 这 些 接口 也 可 以 处 理 来 自 外 部 同一 主机 的 多 个 
连接 ,例如 一 个 用 户 同时 访问 两 个 不 同 的 网 页 。 

TCP 通过 端口 来 支持 到 特定 进程 的 连接 。 端 口 是 一 个 客户 端 或 服务 器 进程 的 本 地 名 
称 (Pullen 2000 )。 例 如 ， 一 个 主机 的 网 络 服务 器 被 分 配 到 80 端口 。 一 个 寻找 主机 H 上 
网 页 的 客户 端 将 请 求 打 包 为 一 个 数据 包 ， 在 数据 包 中 它 请求 TCP 将 其 投递 到 “H : 80 端 
口 "， 主 机 互 上 的 接收 器 则 将 数据 包 传 递 给 与 80 端口 连接 的 本 地 进程 。 主 机 地 址 与 端口 
的 结合 (H: 80 端口 ”) 称 为 套 接 字 ，TCP 被 设计 为 将 数据 包 发 送 到 套 接 字 而 不 仅仅 是 
主机 。 随 着 时 间 的 推移 ， 成 千 上 万 的 服务 已 经 被 定义 并 分 配 了 端口 号 。 

文件 传输 协议 (FTP) 在 一 个 更 加 复杂 的 场景 里 阐述 了 客户 端 - 服务 器 的 关系 。FTP 
被 分 配 到 21 端口 ， 它 是 为 在 两 台 主 机 上 都 有 账户 的 用 户 设计 的 。 主 机 A 上 的 用 户 调用 本 
地 FTP 程序 并 请 求 FTP 打开 到 套 接 字 “B : 21 端口 ”的 TCP 连接 。 主 机 B 上 的 FTP 服 
务 器 向 主机 A 上 的 FTP 请 求 用 户 的 登录 凭证 = 一 旦 登录 ， 用 户 切换 到 期 望 的 目录 并 发 出 
包含 本 地 和 远程 目录 名 称 的 “ put” 命 令 。 一 旦 文件 被 完全 接收 到 远程 目录 ,主机 A 上 
的 用 户 会 将 主机 B 的 确认 视 为 一 个 完成 消息 ， 这 时 用 户 就 可 以 退出 本 地 主机 A 的 FTP 程 
Fe, 关闭 与 远程 主机 B 的 FTP 会 话 进程 。 

TCP 和 UDP ( User Datagram Protocol) 不 是 客户 端 - 服务 器 系统 。 它 们 只 是 连接 两 
台 主 机 上 的 诸如 客户 端 与 服务 器 或 节点 的 进程 通道 。 


域名 系统 


上 文 描述 的 TCP AI IP 协议 使 用 IP 地 址 来 识别 数据 包 的 发 送 方 和 接收 方 。32 位 IP H 
HE (IPv4 ) 以 一 种 人 类 更 可 读 的 方式 描述 : 四 个 字 节 中 的 每 一 个 都 以 一 个 0 到 255 之 间 的 
整数 表达 。 例 如 ，IP 地 址 10000001101011100000000100011100 被 表示 为 129.174.1.28， 
这 些 数值 表示 比 10 位 电话 号 码 更 加 难以 记忆 (对 于 十 六 进 制 表示 的 128 位 IPv6 地 址 ， 情 
况 会 更 糟 )。 因 此 互联 网 采用 了 更 加 容易 记忆 的 符号 形式 的 主机 名 称 系统 。 例 如 ,，“ gmu. 
edu” 的 卫 地址 是 129.174.1.28， 同 时 “gmu.edu” 比 它 的 IP 地 址 要 容易 记忆 得 多 。 

我 们 可 以 在 一 个 域名 服务 器 的 帮助 下 将 符号 形式 的 主机 名 翻译 为 耳 地址 。 域 名 服务 
器 像 电话 短 一 样 工作 。 在 互联 网 上 ， 符 号 形式 的 主机 名 被 称 为 域名 ， 域 名 服务 器 是 域名 服 
务 (DNS ) 的 一 部 分 ， 向 DNS 请 求 查找 一 个 域名 ， 然 后 它 会 以 对 应 的 IP 地 址 来 响应 。 

TCP 软件 被 设置 为 自动 请 求 将 域名 翻译 为 耳 地址 。 例 如 ， 用 户 请 求 “ 发 送 文 
件 F 到 gmu.edu” 会 通过 与 发 送 主机 网 络 相连 的 域名 解析 器 翻译 为 “发 送 文件 F 到 
129.174.1.28”。DNS 并 不 是 以 单个 服务 器 实现 的 ， 它 是 一 个 由 服务 器 和 缓存 组 成 的 网 络 ， 
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互联 网 的 设计 者 仔细 考虑 过 如 何 产生 独一无二 的 域名 。 最 初 的 ARPANET 在 SRI 
国际 有 一 个 主 文件 ， 其 中 保存 了 所 有 的 域名 和 它们 对 应 的 ARPANET 地 址 。 对 于 不 断 
增长 的 互联 网 来 说 ， 给 所 有 主机 分 发 这 样 一 个 文件 会 成 为 一 个 瓶颈 。 在 19834, Paul 
Mockapetris 设计 了 DNS (用 于 域名 注册 的 分 布 式 服务 )，DNS 使 域名 到 IP 地 址 的 翻译 过 
程 自动 化 ， 并 允许 对 域名 空间 的 任意 扩展 。 

在 DNS 中 ， 符 号 名 被 点 号 分 隔 为 字段 ， 就 像 ” www.gmu.edu” 中 的 那样 ， 最 后 一 个 
字段 是 顶级 域 ， 代 表 了 工业 、 政 府 、 组 织 属 群 或 者 国家 代码 。 一 个 独立 的 机 构 一 一 互联 网 
名 称 与 数字 地 址 分 配 机 构 (ICANN) 负责 管理 顶级 域名 "“。 在 1985 年 ， 其 仅仅 包含 一 些 顶 
级 域名 例如 .com, .mil, .gov, .edu, .org 和 .net。 在 2014 年 ， 这 一 数字 已 经 增长 到 大 约 350 
个 〈 包 括 国家 代码 )， 另 外 还 有 2000 个 域名 在 考虑 之 中 。 

每 一 个 顶级 域名 有 一 个 登记 处 负责 将 域名 分 配给 域内 的 组 织 ; 每 一 个 组 织 也 有 一 个 
登记 处 负责 将 域名 在 组 织 内 分 配 ; 以 这 种 登记 处 层级 结构 分 配 的 域名 由 从 低 到 高 的 注册 项 
联系 在 一 起 。 以 域名 www.cs.gmu.edu 为 例 : 

。“www ”由 乔治 梅森 大 学 计算 机 系 的 登记 处 分 配 。 

e“cs” 由 乔治 梅森 大 学 的 登记 处 分 配 。 

e“gmu” 由 .edu 域 的 登记 处 分 配 。 

e “edu” H ICANN 分 配 。 

这 一 方法 将 分 配 域名 的 权利 下 放 到 本 地 组 织 ， 从 而 可 以 选择 意义 更 加 丰富 的 域名 并 
且 降 低 了 痊 贷 和 拥 寨 。 注 意 ， 域 名 是 不 能 独立 于 地 理 位 置 的 ; 例如 cnri.reston.va.us 属于 
位 于 美国 弗吉尼亚 州 雷 斯 顿 的 国家 基础 设施 公司 ， 而 inria.fr 属于 法 国 的 国家 信息 与 自动 
化 研究 所 。 

域名 映射 是 动态 名 称 翻 译 原则 (第 7 章 ) 的 一 个 实例 ， 这 一 原则 中 系统 将 处 于 较 高 层 
级 的 名 字 自 动 翻译 为 处 于 较 低 层级 的 名 字 。 在 域名 映射 中 ， 这 一 原则 具有 两 个 主要 好 处 : 
第 一 ， 具 有 将 任意 IP 地 址 分 配 到 任意 域名 的 能 力 ; 第 二 ， 在 不 改变 服务 器 域名 的 情况 下 
可 以 改变 服务 器 IP 地 址 。 在 一 些 地 址 翻译 系统 中 ， 低 层级 的 名 字 在 较 高 层级 中 是 被 隐藏 
的 一 一 但 在 互联 网 中 并 不 是 这 样 ，IP 地 址 并 没有 对 那些 想 要 使 用 它们 的 人 隐藏 。 域 名 解 
析 系 统 通 过 缓存 本 地 域名 服务 器 上 DNS 数据 库 的 一 部 分 ， 避 免 由 于 将 消息 发 送 到 更 远 、 
更 容易 发 生 拥 塞 、 更 集中 的 域名 服务 器 上 而 造成 的 消息 延迟 ,来 提高 它们 的 性 能 。 相 同 的 
方法 对 于 互联 网 上 许多 可 访问 的 服务 都 是 有 效 的 。 例 如 ， 如 果 不 是 因为 叫做 内 容 分 发 网 络 
(CDN) 的 缓存 网 络 ， 许 多 热门 服务 会 成 为 瓶颈 。 
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网 络 软件 的 组 织 结构 


上 文 的 描述 表明 互联 网 是 一 个 十 分 复杂 的 大 型 系统 ， 它 的 真实 大 小 只 能 被 估计 ， 它 
拥有 10 亿 主机 和 上 百 万 局 域 网 。 它 的 路 由 器 、 链 接 、 服 务 器 、 应 用 、 数 据 中 心 、 服 务 提 
供 商 等 等 的 数量 是 如 此 的 巨大 以 至 于 《经 济 学 家 》 杂 志 在 2012 年 声称 整个 互联 网 消耗 了 
全 世界 约 3% 的 电力 ; 国际 能 源 署 (iea.org) 推测 2014 年 这 一 数字 大 约 是 6%。 国 际 经 济 
的 很 大 一 部 分 也 开始 依赖 于 互联 网 ， 将 其 作为 交流 和 做 生意 的 一 种 途径 。 

互联 网 能 够 取得 如 此 多 的 成 就 ， 无 处 不 在 并 且 工 作 可 靠 ， 该 能 力 是 对 其 设计 师 远 见 
卓识 的 证 明 。 他 们 利用 了 “分 层 原则 ”的 设计 ， 以 一 种 能 够 扩展 到 大 型 网 络 并 且 被 大 多 数 
人 理解 的 方式 使 组 件 结构 化 。 下 面 让 我 们 简单 回顾 一 下 互联 网 软件 的 组 织 结构 。 

在 讨论 TCP/IP 时 ， 我 们 使 用 了 将 书 通过 邮政 服务 进行 投递 的 一 个 类 比例 子 。 现 在 回 
顾 整个 过 程 ， 看 看 所 有 的 组 件 如 何 组 装 为 一 个 有 效 运转 的 系统 。 

© 和 希望 给 朋友 邮寄 书 的 顾客 ， 将 书 连同 朋友 的 地 址 交 给 托运 人 。 

e 托运 人 将 书页 切 成 碎片 ， 把 碎片 贴 在 已 经 编号 的 明信片 上 ， 做 好 备份 ， 并 将 原件 

交 给 邮局 。 托 运 人 等 待 确认 性 的 明信片 以 了 解 何 时 可 以 丢弃 备份 件 。 托 运 人 经 过 
一 个 超时 范围 如 果 还 没有 收 到 确认 ， 会 重新 发 送 明信片 。 

o 邮局 将 明信片 打包 在 邮 袋 中 并 在 邮 和 袋 上 标记 路 线 和 邮递 员 。 
邮递 员 将 邮 袋 放 在 卡车 或 者 飞机 上 ， 将 邮 袋 送 到 目的 地 。 

e 在 目的 地 ， 邮 袋 被 取 下 卡车 并 送 到 邮局 。 

o 邮局 取出 明信片 ， 将 它们 按 序号 排序 后 发 给 托运 人 。 

o 托运 人 从 明信片 上 取 下 书页 碎片 并 将 它们 重新 拼 好 ， 发 送 确认 明信片 ， 偶 尔 可 能 

会 等 待 丢 失 的 明信片 。 

e 托运 人 将 完整 的 重新 组 装 的 书 交 给 朋友 。 

图 11.5 展示 了 邮局 中 的 层级 与 互联 网 软件 中 层级 的 对 应 ， 在 互联 网 中 发 生 的 动作 序 
列 也 是 如 此 ， 文 件 会 在 层级 中 逐 级 下 降 直 到 它 在 物理 介质 中 被 编码 为 信号 ， 然 后 在 接收 端 
逐 级 上 升 直到 它 被 解码 并 重新 组 装 为 文件 。 

在 这 种 结构 中 ， 发 送 端的 每 一 层级 可 以 视 作 自己 在 与 接收 端的 同一 级 进行 通信 。 例 
in, 托运 人 将 自己 的 工作 视 作 把 书 送 到 接收 端的 托运 代理 。 邮 局 将 自己 的 工作 视 作 把 明 
信 片 送 到 接收 端的 邮局 。 邮 递 员 将 自己 的 工作 视 作 把 邮 袋 送 到 邮寄 地 点 。 发 送 端的 TCP 
以 相同 的 方式 将 它 自己 视 作 与 接收 端的 TCP 直接 通信 。 尽 管 实际 的 通信 流 是 先 下 降 到 
物理 层 然 后 上 升 到 接收 端的 TCP ， 但 表面 上 看 ， 通 信 流 是 直接 发 送 到 接收 端 TCP 的 ( 见 
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图 11.6 )。 这 种 表面 上 的 一 个 层级 与 男 一 主机 上 对 应 层级 的 直接 连接 是 互联 网 软件 的 特 
它 使 得 一 个 层级 的 设计 者 可 以 忽略 软件 底层 的 细节 。 


图 11.5 


图 11.6 





互联 网 协议 软件 按照 一 系列 的 层级 排列 (左边 部 分 )， 这 些 层级 类 似 于 托运 人 将 书 投递 给 客 
户 过 程 中 使 用 的 层级 结构 (右边 部 分 )。 某 一 层级 的 服务 由 较 低 层级 的 更 简单 的 服务 组 合 而 
R, TCP 层 管理 可 靠 的 数据 流传 输 ，IP 层 管理 数据 包 的 “ 尽 最 大 能 力 ”投递 ， 链 路 层 在 路 
由 器 之 间 选 择 路 由 并 进行 简单 的 纠 错 ， 信 和 号 层 在 选 定 的 链 路 上 将 数据 包 编码 为 信号 





同样 的 互联 网 坊 议 软 件 补 放 置 在 网 络 中 的 每 一 台 主 机 上 ， Wir mE eT 个 现象 : 每 

一 级 都 在 和 男 一 台 主 机 上 对 等 的 层级 直接 通信 ， 但 表面 上 的 连接 是 由 较 低层 级 实现 的 。 例 
W, TCP 层 将 一 个 文件 以 一 系列 数据 包 的 形式 发 送 给 IP 层 ，IP 层 使 用 动态 重 构 路 由 咒 通 
过 物理 链接 将 数据 包 以 信号 的 形式 发 送 。 在 接收 端 物理 信号 被 解码 为 数据 包 ， 数据 包 从 本 
地 IP 层 流入 到 TCP Je, TCP 层 将 数据 包 重 新 组 装 为 文件 。 网 络 工程 师 将 软件 层级 的 集合 
称 为 协议 栈 ， 因 为 它们 被 实现 为 堆 秋 的 软件 模块 


万 维 网 


1989 年 ，Tim Berners-Lee 在 瑞士 的 欧洲 核子 研究 实验 室 为 了 支持 研究 论文 和 其 他 数 
字 文 件 的 交换 (Berners-Lee 2000 )， 第 一 次 提出 了 万 维 网 (WWW), HE 1991 年 底 首 次 


上 线 。 


在 1993 年 ， 伊 利 诺 伊 大 学 香槟 分 校 的 国家 超级 计算 应 用 中 心 发 布 了 万 维 网 的 第 一 


个 图 形 化 界面 一 Mosaic， 突然 间 许 多 人 能 够 在 互联 网 上 进行 自动 信息 分 享 。 万 维 网 如 同 


野火 一 


样 兴起 ， 互 联网 “ .com” 公 司 的 时 代 开 始 了 。 如 今 万 维 网 被 视 作 互 联网 的 信息 分 
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享 层 。 任 何 形式 的 数字 对 象 ， 包 括 文字 、 图 片 、 声 音 、 音 乐 和 视频 都 可 以 在 一 个 万 维 网 系 
统 中 得 到 访问 、 传 输 、 展 示 或 者 播放 。 
万 维 网 技术 来 自 于 一 些 现 有 技术 的 聚合 ， 用 于 解决 信息 共享 问题 : 
© 互联 网 一 一 尤其 是 支持 客户 端 - 服务 器 应 用 的 TCP/IP 协议 。 
e 域 命 名 一 一 互联 网 中 主机 唯一 的 、 有 层级 的 名 字 。 
o 超 文 本 一 一 以 非 线性 结构 相连 接 的 文本 块 构造 的 文档 。 
© 标记 语言 一 一 使 用 标记 对 数字 文档 进行 注解 以 告诉 其 他 程序 如 何 显示 或 者 泻 染 
文档 。 
这 些 技术 之 所 以 能 结合 起 来 是 因为 Tim Berners-Lee 是 所 有 这 些 技术 的 实践 者 ， 他 的 
发 明 包括 : 
© URL 一 一 统一 资源 定位 符 ， 将 主机 域名 连同 文件 在 主机 文件 夹 中 的 路 径 名 连接 在 
一 起 。 由 于 路 径 名 是 分 层 的 ， 因 此 URL 也 是 分 层 的。 对 于 互联 网 中 数据 对 象 来 
说 ，URL 是 它们 全 局 唯一 的 符号 名 。 
e HTMLIL 一 一 超 文本 标记 语言 ， 用 标签 对 数字 对 象 文 件 做 注解 以 表明 如 何 泻 染 数字 对 
象 的 各 个 部 件 。 例 如 ， 文 件 中 的 文本 块 可 以 被 标记 为 标题 、 段 落 或 者 列表 ， 然 后 
显示 程序 就 会 以 适当 的 方式 显示 它们 。 超 链接 将 数字 对 象 的 URL 进行 编码 ， 分 布 
在 其 他 被 标签 标记 的 元 素 之 中 。 超 链接 可 以 是 对 其 他 文档 的 引用 ， 同 时 也 可 以 指 
向 互联 网 上 的 任何 对 象 ， 例 如 图 像 或 者 声音 文件 。 
e HTTP 一 一 超 文本 传输 协议 ， 当 光标 选中 一 个 超 链 接 时 会 由 浏览 器 自动 触发 。HTTP 
会 打开 通 向 URL 链接 中 主机 80 端口 的 TCP 连接 ， 然 后 将 文件 路 径 名 传递 到 HTTP 
服务 器 ， 服 务 器 会 查找 这 个 文件 ， 将 其 副本 传 回 发 送 端 ， 然 后 关闭 TCP 连接 。 
在 大 众 万 维 网 出 现 不 到 两 年 时 ， 出 现 了 第 一 个 网 络 搜索 引擎 ， 因 为 用 户 希 望 在 互联 
网 上 找到 所 需 信息 。 搜 索引 擎 是 一 种 输入 关键 字 然 后 在 互联 网 上 搜索 包含 关键 词 的 网 页 的 
服务 ， 它 会 返回 网 页 的 URL 以 及 匹配 的 部 分 文本 。 为 了 让 搜索 更 快 ， 搜 索引 擎 会 运行 叫 
做 “索引 器 ”或 者 “网 络 怜 虫 ” 的 子 程序 用 于 系统 地 遍历 主机 名 ， 并 打开 与 这 些 主机 80 
端口 的 连接 ， 找 到 所 访问 页 面 上 的 所 有 URL， 并 继续 访问 这 些 URL。 它 将 每 一 个 页 面 的 
副本 存 到 主 数据 库 中 ， 然 后 创建 一 个 主 索引 ， 以 发 现 给 定 关键 词 的 URL。 从 1993 年 起 ， 
已 经 出 现 了 数 十 个 网 络 搜索 引擎 。 
在 2005 年 前 后 ，Google 成 为 了 最 大 的 搜索 引擎 服务 。Google 使 用 网 络 息 虫 维护 一 
个 持续 更 新 的 整个 万 维 网 的 快照 ， 并 构建 了 一 个 能 够 在 给 定 字符 串 下 高 速 查找 可 能 包含 该 
字符 串 页 面 的 索引 。 其 他 热门 的 搜索 服务 还 有 Yahoo, Bing 和 Wolfram Alpha. 
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A 5| POR ENA BI APE. CNAME ERARE A AN de: 
URL 目标 的 内 容 都 不 会 被 发 现 ; 需要 用 户 登 录 的 网 页 URL 或 者 提供 数据 库 检 索 界 面 的 
URL 都 不 会 被 收录 ; 一 些 只 能 被 诸如 FTP 或 TELNET 协议 访问 的 服务 器 不 是 万 维 网 的 一 
部 分 。 有 时 网 络 爬 虫 可 能 会 陷 在 互联 网 的 “ 岛 ” 上 一 一 与 网 络 中 其 他 部 分 不 相连 的 部 分 。 
网 络 专家 相信 被 搜索 引擎 看 到 的 网 络 内 容 最 多 占 10%。 

即使 搜索 引擎 几乎 是 盲目 的 ， 它 们 可 以 看 到 的 网 络 内 容 数量 仍然 是 惊人 的 。 在 2013 
年 ， 万 维 网 基金 会 估计 网 页 的 数量 超过 一 万 亿 ， 即 使 搜索 引擎 只 索引 了 其 中 的 10%， 一 个 
请 求 也 需要 查找 一 千 亿 条 记录 。 这 就 是 为 什么 对 于 一 些 关 键 词 集 非常 容易 得 到 一 个 压倒 性 
数量 的 “命中 ”纪录 。 例 如 ， 在 9/11 Ahk, XE] “Osama bin Laden ”产生 了 近 
300 万 次 的 命中 纪录 ， 没 有 人 有 能 力 查阅 哪怕 其 中 一 部 分 的 纪录 。 因 此 ， 人 可 以 定位 的 网 页 
数量 其 实 是 很 小 的 。Hubert Dreyfus ( 2001 ) 评论 说 ， 在 网 上 找 某 样 东 西 就 像 在 一 堆 针 里 找 
一 根 针 一 样 。John MacCormick (2012 ) 将 网 络 搜索 比 作 在 世界 上 最 大 的 干草 堆 里 搜索 。 

更 加 有 挑战 性 的 是 几乎 无 法 分 辩 获 得 的 信息 是 否 是 查询 的 最 佳 答案 ， 独 立 证 实 新 的 
信息 是 非常 困难 的 。 然 而 ， 人 们 仍然 认为 网 络 搜索 是 有 价值 的 ， 因 为 即使 贫乏 的 信息 也 可 
以 很 有 用 。 值 得 注意 的 是 网 络 搜索 可 以 持续 发 现 有 用 的 信息 ， 更 值得 注意 的 是 上 百 万 的 人 
花费 数 不 清 的 时 间 建 设 网 页 供 他 人 查找 。 

网 络 已 经 成 为 电子 商务 的 媒介 : 在 互联 网 上 以 电子 方式 进行 商业 交易 。 商 业 公 司 和 
其 客户 在 发 送 数据 前 使 用 加 密 协 议 ， 从 而 提升 安全 等 级 和 保护 隐私 。 第 一 个 加 密 协 议 一 一 
1996 年 的 安全 套 接 字 层 (SSL) 协议 在 1999 年 被 传输 层 安全 (TLS) 协议 所 取代 。TLS 允许 
两 个 主机 协商 加 密 参 数 ， 然 后 对 它们 之 间 的 流量 进行 加 密 ; TLS 保护 密码 、 支 付 信 息 、 银 
行 账户 号 、 信 用 卡号 等 等 在 网 络 接口 之 间 传 递 的 部 分 商业 交易 数据 。 用 户 可 以 分 辨 出 该 协 
议 何 时 正在 被 使 用 ， 因 为 一 个 锁 的 图 标 和 字符 串 “https” 会 在 他 们 浏览 器 的 地 址 栏 出 现 。 

除了 新 的 协议 ， 电 子 商 务 还 给 我 们 提供 了 新 的 商业 模式 ， 包 括 购物 (在线 商店 和 购物 
车 )、 企 业 间 的 协调 (工作 流 ) 以 及 定价 (eBay 拍卖 )。 伴 随 着 这 些 新 概念 的 发 展 ， 点 燃 了 
关于 “新 经 济 ” 的 热情 ， 导 致 了 世纪 之 交 的 互联 网 泡沫 破裂 。 

除了 这 些 商 业 实践 中 的 创新 ， 互 联网 也 激发 了 阴暗 面 的 创新 一 一 垃圾 邮件 、 病 毒 、 蠕 
忠 、 支 持 、 拒 绝 服 务 攻击 、 入 侵 和 其 他 及 脏 的 东西 使 得 互联 网 的 使 用 越 来 越 难 并 且 越 来 越 
危险 。 很 难 找到 应 对 这 些 问题 的 技术 方案 ， 少 数 已 经 被 提出 的 方案 (例如 互联 网 用 户 ID) 
也 遇 到 了 激烈 抵制 。 

互联 网 确实 给 了 我 们 一 个 新 的 世界 以 及 对 于 现实 的 新 概念 。 有 一 天 它 有 可 能 同 其 他 
的 伟大 发 明 一 道 被 列 人 到 James Burke 的 《宇宙 改变 的 那 一 天 》 中 。 
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网 络 科学 

随 着 互联 网 络 的 增长 ， 科 学 家 开始 对 互联 网 中 记录 的 人 和 对 象 之 间 的 连接 关系 感 兴 
趣 。 例 如 ， 研 究 者 研究 了 有 关 文 献 引 用 的 统计 ; 组 织 分 析 师 通过 研究 电子 邮件 关系 的 模式 
来 发 现 组 织 里 的 上 下 级 关系 ; 执法 官员 将 嫌犯 的 交谈 与 支付 历史 联系 起 来 ; RA RHE 
慌 怖 分 子 的 网 络 以 期 摧毁 他 们 。 建 模 者 来 到 互联 网 ， 开 始 挖掘 关于 关系 的 数据 ， 当 他 们 开 
始 发 现 有 趣 的 模式 并 做 出 令 人 震惊 的 预测 时 ， 他 们 开启 了 一 个 叫做 网 络 科 学 的 新 领域 。 

Alberto Barabasi 将 统计 物理 学 的 方法 应 用 于 从 数据 中 得 到 的 网 络 图 上 (Barabasi 
2002 )。 例 如 在 网 络 上 ， 一 个 节点 可 能 代表 一 个 页 面 ， 而 一 个 链接 代表 连接 两 个 页 面 的 一 
个 URL， 节 点 的 度 是 指 接 人 链接 的 数目 。Barabasi 发 现 这 个 数据 满足 “ 寡 定 律 ”， 即 度 为 
x 的 节点 数量 P(x) x 成 正比 ， 其 中 a 的 范围 为 1 到 3。 他 还 注意 到 遵循 寡 定 律 的 数据 
是 “尺度 无 关 ” 的 ， 因 为 对 于 任意 x， 缩 放 x 会 使 得 P(x) 以 相同 的 倍数 缩放 。 例 如 ， 度 
为 2x 的 节点 的 数量 为 (20 ”= 2% + P(x) ( 见 图 11.7). Sb, Barabasi 发 现 以 偏好 依附 增 
长 的 网 络 是 尺度 无 关 的 ， 偏 好 依附 意味 着 一 个 新 的 链接 与 一 个 节点 连接 的 概率 等 比 于 该 节 
点 的 度 ， 这 在 网 络 中 通常 是 成 立 的 : 一 个 热门 网 站 相 比 一 个 不 出 名 的 网 站 更 可 能 吸引 新 的 
链接 。 
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图 11.7 来 自 网 络 连接 的 节点 度数 据 在 对 数 - 对 数 图 上 倾向 于 拟 合 为 直线 ， 这 意味 着 度数 为 x 的 节 
点 数量 P(x) 正比 于 x“，a 为 常数 。 指数 a = 1 时， 这 就 是 著名 的 Zipf 定律 ， 即 P(x) 正比 
于 1/x， 指 数 a = 2 在 许多 网 络 连接 图 中 也 很 常见 
尺度 无 关 的 说 法 应 用 到 互联 网 的 路 由 器 连通 性 时 ， 可 以 得 到 两 个 结论 。 一 个 是 互联 
网 对 于 随机 节点 故障 具有 高 容忍 度 ， 因 为 大 多 数 节点 的 度数 很 低 ， 损 坏 其 中 一 个 ， 几 乎 不 
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能 影响 任何 事情 。 另 一 个 结论 更 加 重要 : 互联 网 更 易 遭 受 严 重 破 坏 ， 因 为 网 络 模型 表明 高 
度数 节点 的 数量 很 少 。 这 一 弱点 被 称 为 互联 网 的 “致命 要 害 ”， 因 为 它 暗示 了 一 个 攻击 者 
可 以 通过 找到 并 损坏 一 些 枢纽 来 破坏 大 部 分 互联 网 。 

致命 要 害 的 说 法 与 互联 网 工程 师 自 己 的 风险 评估 或 与 重大 互联 网 事故 的 实际 情况 并 不 
一 致 。2009 年 一 些 研究 者 公开 质疑 了 这 一 说 法 (Willinger 等 ，2009 )， 他 们 注意 到 老 定 律 
连通 性 的 说 法 来 自 于 traceroute 的 数据 。traceroute 是 一 个 互联 网 工具 ， 用 于 返回 探 针 数据 
包 在 移动 到 目的 地 过 程 中 所 遍历 的 IP 地址 列表 。 跟 踪 路 由 数据 不 代表 任何 实际 的 物理 连 
接 ， 原因 在 于 协议 栈 : IP 层 不 能 看 到 路 由 和 链接 层 ， 而 物理 连通 性 在 这 些 层 中 是 可 见 的 。 

子 网 和 主干 链接 的 工程 设计 由 两 大 因素 驱动 : 为 了 避免 连接 丢失 的 节点 和 链接 宛 余 
性 的 需要 与 处 理 期 待 流量 能 力 的 需要 。 这 些 工程 目标 驱使 工程 师 对 偏好 依附 非常 清楚 ， 这 
就 产生 了 像 图 11.1 中 那样 的 结构 ， 局 域 网 依附 于 主干 网 ， 度 数 越 高 的 节点 越 倾 向 于 在 局 
域 网 而 不 是 主干 网 中 。Willinger 和 他 的 同事 (2009 ) 批评 了 那些 没有 验证 就 接受 “互联 
网 路 由 器 连通 性 是 尺度 无 关 的 ”说 法 的 人 们 ， 互 联网 根本 不 存在 尺度 无 关 的 致命 要 害 。 

换 名 话说， 尺度 无 关 的 说 法 可 能 适用 于 网 络 图 ， 但 是 对 于 按照 网 络 图 连接 的 物理 工 
程 网 络 来 说 并 不 适用 。 

那么 对 于 社交 网 络 、 网 页 或 者 电子 邮件 网 络 的 连通 性 数据 呢 ? 尺度 无 关 的 说 法 对 它 
们 适用 吗 ? 是 的 ， 因 为 这 些 数据 直接 测量 节点 和 它们 的 度数 。 然 而 ， 在 将 这 一 结论 转换 到 
物理 互联 网 时 我 们 必须 小 心 。 例 如 ， 类 似 google.com 这 样 非常 热门 的 站 点 看 起 来 是 枢纽 ， 
因此 非常 容易 被 攻击 。 然 而 ，Google 的 工程 师 将 它们 的 数据 仓库 和 查询 引擎 实现 为 高 度 
分 布 式 的 网 络 ， 恰 恰 避 免 了 这 一 弱点 。 

Dark Clark (1988) 相信 互联 网 的 最 大 弱点 是 它 的 一 个 最 初 设 计 : 信任 其 他 节点 。 恶 
意 软 件 、 僵 尸 网 络 、 拒 绝 式 服 务 以 及 人 侵 者 已 经 成 为 网 络 连通 性 以 及 性 能 问题 的 最 大 来 
源 。 例 如 ， 互 联网 上 最 大 的 破坏 性 事件 可 能 是 1988 年 的 莫 里 斯 蠕虫 ， 它 使 得 当时 相对 较 
小 的 互联 网 中 10% 的 部 分 瘫痪 了 数 天 ; 大 部 分 停止 工作 的 节点 被 它们 的 管理 员 自 发 断 开 
网 络 来 停止 蠕虫 的 草 延 ， 直 到 清除 掉 蠕 虫 。 

尽管 对 物理 互联 网 建 模 存 在 诸多 挑战 ， 网 络 科 学 仍然 很 有 希望 构建 更 好 的 互联 网 模 
型 以 及 设计 不 能 被 轻易 损坏 的 核心 互联 网 架构 。 
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本 书 的 目的 在 于 阐明 计算 机 科学 是 建立 在 一 系列 基本 原理 之 上 的 。 这 些 原理 告诉 我 们 
如 何 利用 物质 和 能 量 来 进行 计算 。 这 些 原理 帮助 我 们 理解 计算 机 可 以 做 和 不 可 以 做 什么 以 
及 计算 机 技术 的 限制 在 哪里 。 这 些 原 理 能 够 帮助 我 们 找到 技术 和 创新 机 遇 的 联系 。 这 些 原 
理 能 够 帮助 我 们 评估 风险 和 避免 计算 机 技术 对 人 们 的 生活 造成 损害 。 这 些 原理 是 永恒 的 ， 
即便 在 久远 的 未 来 ， 当 现 有 的 技术 成 为 博物 馆 里 的 老 古董 时 ， 这 些 原理 依然 是 有 效 的 。 

我 们 希望 以 这 个 主题 中 一 些 主要 经 验 的 反思 作为 本 书 的 结尾 。 
没有 意识 的 机 器 

在 撰写 本 书 的 时 候 ， 我 们 一 直 浸 淫 在 计算 机 运作 的 原理 之 中 。 我 们 发 现 我 们 必须 面 
对 计算 中 无 处 不 在 的 物质 和 能 量 。 不 管 以 何 种 方式 ， 所 有 的 原理 都 涉及 如 何 控制 物质 和 能 
量 来 进行 计算 。 所 有 的 事物 背后 都 有 物理 原理 的 支持 。 每 一 个 程序 最 终 都 是 使 用 电路 或 者 
其 他 媒介 来 控制 信号 流 。 每 一 位 设计 人 员 都 在 探索 能 够 把 物质 和 能 量 转化 为 期 望 输出 的 
程序 。 

我 们 相信 ， 那 名 著名 的 标语 “比特 而 非 原 子 ”使 得 人 们 低估 了 物质 和 能 量 在 计算 运 
行 中 的 重要 性 。 请 注意 ， 根 据 国际 能 源 署 估计 ， 在 2014 年 全 世界 将 近 6% 的 电力 被 用 来 
支持 因特网 的 数据 中 心 和 数据 连接 。 即 便 如 此 ， 在 过 去 的 十 年 里 ， 随 着 电子 技术 的 飞速 发 
展 和 几乎 所 有 事物 的 全 面 电子 化 ， 本 质 化 的 改变 已 经 发 生 。 现 在 我 们 能 够 以 极 低 的 研发 
费用 、 免 费 的 无 错 拷贝 、 世 界 范 围 的 传播 、 非 常 便宜 的 销售 价格 等 方式 生产 新 的 电子 产品 
(例如 “app”)。 由 此 形成 的 电子 经 济 是 丰富 的 ， 而 非 稀缺 的 。 这 种 转变 并 不 是 由 于 “ 比 
特 ” 导 致 的 ， 而 是 在 于 我 们 已 经 学 会 了 如 何 廉 价 地 控制 大 量 的 信号 和 原子 。 

尽管 我 们 已 经 善于 使 用 抽象 手段 来 解释 和 设计 计算 ， 但 计算 本 身 无 法 抽象 。 计 算是 信号 
的 运动 和 物质 状态 的 转变 。 这 些 运动 和 转变 的 每 一 步 都 是 纯粹 的 物理 现象 ， 遵 守 一 定 的 物理 
定律 。 计 算 机 的 任何 部 分 都 不 涉及 智能 。 计 算 机 的 无 思维 性 和 机 械 性 是 非常 令 人 惊讶 的 。 


智能 机 器 
那么 计算 机 是 如 何 做 到 看 起 来 是 智能 的 呢 ? 对 于 我 们 而 言 ， 答 案 是 非常 简单 的 : 计 
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算 机 是 被 设计 成 这 样 的 。 设 计 人 员 把 软件 和 计算 机 本 身 塑造 成 能 够 产生 他 们 所 期 望 的 反馈 
的 样子 。 设 计 人 员 经 常 利用 原型 系统 来 学 习 用 户 如 何 对 不 同 机 器 行为 进行 反应 。 如 果 他 们 
不 喜欢 某 一 种 反应 ， 那 么 就 更 改 相 应 的 设计 。 从 他 们 的 角度 来 看 ， 大 部 分 用 户 不 会 把 一 个 
错误 结果 当 作 智能 的 玻 忽 ， 而 是 简单 地 认为 机 器 坏 了 。 当 你 正好 碰 上 一 个 计算 机 的 行为 看 
上 去 是 有 智能 的 ， 其 实 是 因为 你 正好 按照 设计 人 员 所 预期 的 进行 反应 ， 而 机 器 本 身 并 没有 

智能 。 

有 一 部 分 人 认为 由 大 量 没 有 智能 的 机 器 所 组 成 的 大 规模 网 络 能 够 发 展 出 新 兴 行 为 
(emergent behavior)， 从 而 在 事实 上 产生 智能 '。 大 量 的 “新 兴 行 为 ”是 有 意 设计 的 结果 。 
例如 ， 一 个 设计 师 可 以 在 观察 到 先前 用 户 对 计算 的 反应 后 ,循环 地 塑造 计算 的 本 地 行 
为 。 在 这 些 情况 下 ， 这 些 “ 新 兴 智 能 ”其 实 是 设计 人 员 意 图 的 反映 。 更 普遍 地 ， 技 术 总 
是 髋 入 在 社交 系统 中 ,它们 遵循 人 类 在 系统 中 的 行为 。 例 如 ， 看 上 去 电话 推销 机 器 人 正 
在 “侵入 ”我 们 的 家 园 ， 但 事实 上 ， 公 司 选择 这 些 机 器 的 原因 在 于 这 些 机 器 能 够 产生 所 
期 待 的 结果 。 这 大 概 能 够 解释 很 多 显然 的 新 兴 智 能 行为 ， 而 不 需要 假设 这 些 机 器 或 者 网 
络 具 有 智能 。 

计算 机 也 可 能 由 于 其 运行 速度 而 被 认为 具有 智能 。 尽 管 你 可 能 也 意识 到 需要 通过 数 
以 十 亿 计 的 计算 步骤 来 产生 针对 问题 的 一 个 答案 ， 但 计算 机 能 够 在 是 眼 之 间 给 出 反馈 是 令 
人 震惊 的 。 今 天 的 计算 机 比 20 世纪 40 年 代 的 计算 机 快 了 将 近 10“ 倍 ， 而 且 能 够 做 到 以 
前 的 计算 机 无 法 做 到 的 很 多 事 。 谁 能 够 想到 计算 机 能 够 在 半 秒 内 从 全 世界 范围 内 找到 符合 
你 的 查询 的 百 万 量 级 的 文档 ? 正如 科幻 作者 Arthur C. Clarke 说 的 ,“ 任 何 足够 先进 的 技术 
看 起 来 都 像 具 有 魔力 一 般 ”。 

然而 ， 以 上 这 些 观 察 结 果 并 不 能 安慰 一 些 观 察 者 。 在 2000 年 ，Sun Microsystems 
的 比尔 乔 伊 ( Bill Joy) 阐述 了 他 对 于 一 些 危险 的 智能 可 能 会 出 现 、 失 控 ， 并 且 挫 败 
或 压倒 人 类 试图 阻止 它 的 措施 的 担心 *。 在 2014 年 ， 物 理学 家 斯 蒂 芬 . ES (Stephen 
Hawking) 也 发 出 了 类 似 的 警告 ,“ 对 于 人 类 而 言 ， 人 工 智能 可 能 是 最 为 糟糕 的 事物 ”>。 
谷歌 公司 建立 了 人 工 智能 伦理 委员 会 来 监督 其 在 人 工 智 能 方面 的 工作 ， 从 而 避免 这 些 工 
作 在 二 十 一 世纪 里 导致 人 类 的 灭绝 。 我 们 认为 没有 计算 原理 能 够 排除 这 种 可 怕 未 来 的 发 
生 ， 我 们 也 同意 设计 人 员 应 该 对 大 规模 网 络 化 的 计算 机 系统 付出 极 大 关注 来 应 对 可 能 出 

现 的 风险 。 
而 ， 计 算 机 终 将 超过 人 类 并 不 是 一 个 确定 的 预言 。 在 1997 年 ，IBM 的 超级 计算 机 
在 国际 象棋 领域 战胜 了 加 里 卡 斯 帕 罗 夫 (Garry Kasparov)。 几 年 后 兴起 的 自由 式 国 际 
象棋 比赛 中 ， 棋 手 通过 咨询 笔记 本 电脑 上 的 国际 象棋 程序 能 够 轻松 击败 国际 象棋 超级 计 
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算 机 。 当 人 类 与 机 器 进行 “合作 ”而 非 “ 对 抗 "， 这 种 组 合 能 够 产生 极 大 地 超越 计算 机 的 
智能 。 
架构 和 算法 

目前 有 一 个 常见 的 观点 ， 即 所 有 关于 计算 的 巨大 进步 都 是 源 于 算法 。 例 如 ， 谷 歌 的 
成 功 看 起 来 像 是 依靠 其 巧妙 的 页 面 排序 算法 。 或 者 数据 库 回 滚 依赖 于 其 原子 化 的 事务 算 
法 。 或 者 在 线 交 易 事务 能 够 确保 安全 是 依靠 大 量 的 RSA 密码 算法 。 在 每 一 个 显著 的 计算 
机 成 就 之 后 似乎 都 有 一 个 精妙 的 算法 。 

因此 ， 对 很 多 人 来 说 ， 算 法 分 析 和 编程 就 是 计算 机 科学 的 核心 。 

但 对 我 们 来 说 ， 这 个 结论 似乎 并 不 正确 。 事 实 也 并 不 这 么 简单 ， 让 我 们 来 看 看 摩尔 定 
律 。 摩 尔 定律 认为 ， 一 块 计算 机 芯片 上 的 晶体 管 数量 每 两 年 增加 一 倍 。 从 一 开始 这 就 是 工 
业界 的 趋势 。 这 为 我 们 带 来 了 每 十 年 近 百倍 的 计算 能 力 的 增加 。 在 工业 界 有 一 个 经 验 规律 ， 
任何 一 项 可 以 使 得 一 个 重要 过 程 增 速 十 倍 的 技术 都 是 具有 潜在 扰乱 性 的 。 摩 尔 定律 远 远 超 
出 了 这 个 规律 ， 并 使 计算 行业 处 于 一 个 纷乱 不 断 的 过 程 中 ， 这 是 一 个 非常 重要 的 现象 。 

但 是 ， 摩 尔 定律 的 进步 并 不 是 仅仅 由 于 算法 的 作用 。 而 是 由 于 材料 的 设计 ， 对 物理 
的 最 新 理解 ， 在 芯片 上 的 电路 架构 ， 以 及 在 光 刻 技术 、 电 路 模拟 器 、 清 洁 化 生产 和 其 他 有 
关 方 面 的 进步 。 

没有 谷歌 的 全 球 数据 仓库 的 基础 设施 ， 谷 歌 的 页 面 排序 算法 将 无 法 工作 ， 这 些 基 础 
设施 能 够 在 半 秒 内 调动 成 千 上 万 个 程序 来 找到 符合 查询 的 结果 。 

那么 量子 计算 又 如 何 呢 ? 物理 实验 室 正在 寻找 方法 来 利用 能 够 表示 原子 的 量子 又 加 
态 的 “量子 比特 ”来 进行 计算 。 这 些 进步 将 来 源 于 新 的 物理 学 而 非 算法 。 如 果 他 们 成 功 
了 ， 大 部 分 的 现代 密码 技术 可 能 会 变 得 过 时 。 

那么 多 核 芯 片 呢 ? 为 了 从 芯片 中 获得 更 多 的 计算 能 力 ， 设 计 人 员 生产 了 包含 多 个 处 
理 器 的 芯片 ， 这 要 求 编程 人 员 编写 多 线程 算法 来 获得 最 快 的 速度 。 如 果 他 们 成 功 了 ， 将 不 
仅 推进 摩尔 定律 继续 向 前 发 展 几 代 ， 而 且 会 引发 一 场 编程 的 革命 。 

这 些 仅仅 是 计算 机 架构 本 身 发 生 改 变 的 许多 例子 中 的 一 部 分 。 新 的 架构 促成 了 更 快 的 
算法 ， 使 得 一 些 原本 不 可 行 的 算法 变 得 可 行 ， 也 启发 了 那些 能 够 最 好 地 利用 架构 的 新 算法 。 

所 以 对 我 们 而 言 ， 计 算 机 的 架构 和 它们 所 运行 的 算法 一 样 重 要 。 这 在 计算 原理 中 是 
非常 明确 的 。 很 多 原理 是 关于 运行 计算 的 系统 的 。 如 果 把 原理 的 范围 限制 为 关于 算法 的 原 
理 ， 而 忽略 关于 架构 的 原理 ， 那 么 我 们 就 无 法 给 出 一 个 关于 计算 的 全 面 图 景 。 

这 就 是 为 什么 本 书 中 有 如 此 多 的 系统 原理 的 原因 。 
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经 验 思维 

计算 机 科学 的 批评 家 传统 上 认为 计算 机 科学 主要 是 数学 (例如 算法 分 析 ) 和 工程 ( 例 
如 架构 设计 和 软件 开发 )。 他 们 之 所 以 反对 计算 机 科学 被 称 为 科学 ， 一 部 分 原因 是 由 于 他 
们 没有 看 到 计算 机 科学 对 于 实验 方法 的 努力 追求 ， 一 部 分 原因 在 于 计算 机 科学 的 研究 对 象 
和 信息 处 理 似 乎 是 人 为 而 非 自然 的 。 

过 去 的 二 十 年 发 生 了 巨大 的 变化 。 计 算 机 科学 家 已 经 在 很 多 领域 采用 了 实证 方法 ， 
包括 软件 原型 ， 计 算 机 安全 ， 调 试 ， 架 构 的 定量 设计 ， 预 测 网 络 的 响应 时 间 ， 人 工 智 能 ， 
启发 式 算法 的 验证 ， 以 及 其 他 多 种 方面 。 计 算 机 科学 家 并 没有 放弃 建 模 和 分 析 ， 但 他 们 已 
经 在 实验 验证 模型 和 分 析 中 有 了 长 足 的 进步 。 

此 外 ， 许 多 领域 的 科学 家 已 经 发 现 了 一 些 自然 发 生 的 信息 过 程 ， 并 邀请 计算 机 科学 
家 来 帮助 他 们 了 解 这 些 过 程 。 尽 管 计 算 机 科学 涉及 的 大 都 是 人 工 〈 机 器 产生 ) 的 信息 处 
理 ， 但 许多 相同 的 原理 也 会 用 于 自然 的 信息 处 理 。 计 算 领 域 中 一 个 正在 发 展 的 领域 就 是 与 
自然 信息 处 理 有 关 的 。 

计算 机 科学 正在 不 断 成 长 ， 和 工程 与 数学 一 样 ， 它 也 赢得 了 作为 一 门 科 学 的 声誉 。 

由 于 整个 科学 领域 普遍 的 计算 机 运行 和 计算 的 影响 ， 以 及 计算 机 领域 和 其 他 领域 越 
来 越 频 繁 的 交互 ， 保 罗 “' 罗 森 布 鲁 姆 (Paul Rosenbloom) 认为 计算 机 科学 不 仅仅 是 一 个 科 
学 领域 ,而且 还 是 一 个 堪 比 物理 、 生 命 以 及 社会 科学 的 新 领域 “。 


一 个 甸 新 的 机 器 时 代 来 临 


正如 18 世纪 80 年 代 ， 茹 汽 机 成 为 自动 化 和 强化 手工 劳动 的 转折 点 ， 现 今 ， 网 络 化 
的 计算 机 已 经 成 为 自动 化 和 强化 认 知 工作 的 转折 点 “。 这 产生 于 本 书 所 涵盖 的 所 有 事物 的 
聚合 : 算法 、 系 统 和 设计 。 算 法 产生 了 巧妙 解决 认 知 问题 的 新 方法 。 系 统 和 网 络 已 经 开发 
出 了 能 够 提供 通用 的 运行 这 些 方 法 的 计算 能 力 的 范围 和 性 能 。 而 设计 人 员 已 经 非常 善于 寻 
找 算法 和 系统 的 新 组 合 来 为 人 类 社会 提供 宝贵 的 贡献 。 

信息 经 济 学 和 关于 实体 的 经 济 学 有 着 深刻 的 不 同 。 物 理 的 产品 例如 智能 手机 需要 大 
量 的 前 期 开发 成 本 和 大 量 的 销售 来 挫 销 这 些 成 本 。 而 电子 产品 现在 可 以 以 较 低 的 成 本 被 设 
计 出 来 ， 并 且 以 更 低 的 成 本 传播 一 一 应 用 程序 、 应 用 程序 开发 工具 、 应 用 程序 市 场 的 爆炸 
式 增 长 见证 了 这 一 现象 。 数 字 对 象 的 世界 是 丰富 的 而 非 稀 缺 的 。 应 用 程序 是 新 经 济 的 软 
件 工具 。 应 用 程序 的 工作 使 得 用 户 的 生活 变 得 异常 轻松 。 你 是 一 个 徒步 旅行 者 吗 ? 利用 
GPS 来 定位 你 的 旅途 吧 。 和 希望 阅读 你 的 晨 间 报纸 ?” 装 一 个 本 地 报纸 的 应 用 程序 吧 。 想 要 
快速 地 办 理 登 记 手续 ? 装 一 个 航空 公司 的 应 用 程序 吧 。 想 要 呼叫 一 辆 出 租车 ? 装 一 个 可 以 
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在 你 所 在 区 域 使 用 的 打车 应 用 程序 吧 。 智 能 手机 和 平板 电脑 本 身 并 没有 产生 革命 ， 应 用 程 
序 把 这 些 设备 转化 成 了 非常 有 用 的 实现 认 知 工作 的 实用 工具 。 

新 的 计算 机 时 代 最 令 人 不 安 的 一 个 问题 是 快速 变化 的 就 业 市 场 。 如 果 一 个 人 的 工作 
岗位 是 可 以 由 机 器 自动 执行 的 ， 那 么 他 就 有 失去 工作 的 风险 。 设 计 人 员 和 软件 工程 师 的 工 
作 岗 位 正在 扩张 ， 尽 管 他 们 的 产品 蔡 代 了 那些 可 以 自动 化 的 工作 岗位 。 我 们 的 教育 体系 还 
没有 跟 上 帮助 失业 者 找到 新 的 技能 和 工作 的 需求 。 教 育 者 和 政策 制定 者 在 这 方面 的 工作 显 
得 不 足 。 


我 们 的 思维 方式 正在 转变 


想象 一 下 在 网 络 搜索 中 非常 容易 被 找到 的 两 张 图 片 。 一 张 是 现代 超级 计算 机 的 照片 。 
例如 ，IBM 在 阿尔 贡 实 验 室 的 蓝 色 基因 超级 计算 机 ， 在 它 的 72 个 机 柜 中 包含 了 250 000 
个 处 理 器 ， 每 秒 可 以 执行 10” 次 运算 一 一 是 智能 手机 芯片 速度 的 一 百 万 倍 。 这 种 机 器 非 
常 善于 利用 确定 性 算法 处 理 大 数据 集 。 这 种 计算 机 没有 智能 。 

男 一 张 图 片 是 一 个 互联 网 络 图 ， 这 是 一 张 极为 漂亮 的 互联 网 网 站 之 间 数 据 连 接 的 快 
照 图 ， 拥 有 更 多 人 链 的 网 站 在 图 中 显得 更 大 更 亮 。 互 联网 是 一 个 人 类 和 计算 机 无 尽 交 互 的 
有 机 体 ， 在 这 个 有 机 体 中 人 和 计算 机 互相 放大 彼此 的 能 力 。 这 个 有 机 体 不 断 改变 着 它 的 结 
构 ， 有 些 改 变 甚至 是 有 破坏 性 的 。 这 个 图 景 代表 了 来 自 十 亿 计 的 计算 机 和 数 十 亿 计 的 人 所 
组 成 的 超级 计算 机 。 这 个 有 机 体 具有 智能 一 一 能 够 收集 、 增 强 、 协 作 参 与 其 中 的 每 一 个 成 
员 的 智能 的 能 力 。 

互联 网 有 机 体 并 不 会 取代 机 器 。 这 是 一 个 建立 在 机 器 、 移 动 设备 、 连 接 以 及 和 人 类 
的 交互 上 的 一 个 思 新 的 系统 。 计 算 机 网 络 是 这 个 有 机 系统 的 基础 设施 。 

这 两 幅 图 片 也 代表 了 不 同 的 理解 世界 的 方法 。 机 器 的 视角 代表 了 科学 的 进步 ， 它 似 
乎 知晓 所 有 的 数据 ， 能 够 预见 未 来 发 生 什么 ， 并 进行 控制 。 有 机 体 的 视角 展示 了 一 个 充斥 
着 不 确定 性 ， 不 可 预测 的 和 混乱 的 世界 ， 这 个 世界 没有 规则 地 不 断 发 展 。 我 们 对 设计 和 架 
构 的 态度 是 在 机 器 时 代 形 成 的 。 针 对 互联 网 有 机 体 时 代 的 新 的 设计 和 架构 原理 无 疑 会 陆续 
出 现 。 教 育 系统 也 将 为 人 们 在 这 个 新 兴 的 世界 中 生活 做 好 准备 ， 并 且 合 理 利用 技术 给 子孙 
后 代 留 下 一 个 更 美好 的 世界 。 


设计 的 核心 性 
综合 起 来 看 ， 这 些 思考 把 设计 师 以 及 他 们 的 工作 放 到 了 计算 机 进步 和 创新 的 中 心 位 
置 。 机 器 的 智能 化 并 非 来 自 于 架构 或 算法 ， 而 是 来 自 于 设计 师 的 工作 。 设 计 师 在 软件 和 机 
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器 要 为 用 户 产 出 的 含义 上 费 尽 心思 。 他 们 精心 地 进行 设计 ， 从 而 使 得 期 望 的 含义 能 够 如 实 
地 提供 给 用 户 。 当 编程 人 员 是 设计 师 的 时 候 ， 他 们 具有 最 大 的 影响 力 ， 和 否则， 他们 只 是 实 
现 别 人 设计 的 程序 员 。 
为 了 强调 这 一 点 ， 我 们 对 设计 进行 了 10 个 章节 的 论述 。 有 经 验 的 设计 人 员 使 用 设计 
原理 ， 以 引导 他 们 完成 可 靠 、 踏 实 、 实 用 、 安 全 、 保 险 的 计算 机 系统 。 虽 然 这 些 原理 不 是 
自然 规律 ， 但 它们 在 实现 计算 运行 的 过 程 中 是 非常 重要 的 。 
247 让 我 们 为 设计 师 鼓 掌 ， 为 他 们 让 我 们 能 够 完成 我 们 的 工作 而 鼓掌 吧 。 


各 草 概 要 


第 1 章 作为 科学 的 计算 

计算 是 一 门 相对 年 轻 的 学 科 。 其 作为 一 个 学 术 研究 领域 确立 于 20 世纪 30 年 代 ， 确 
立 的 主要 标志 是 由 KurtG6del (1934), Alonzo Church (1936 )、Emil Post ( 1936 )、 
Alan Turing (1936 ) 等 人 所 发 表 的 一 组 重要 论文 。 这 些 研 究 者 敏锐 地 意识 到 了 自动 计算 
(automatic computation) 的 重要 性 ， 并 开始 为 “计算 ”这 个 概念 建立 坚实 的 数学 基础 。 他 
们 回答 了 “什么 是 计算 ”这 个 问题 ， 并 探讨 了 实现 自动 计算 的 不 同 模型 。 这 个 领域 的 第 一 
个 40 年 关注 对 计算 技术 和 网 络 的 持续 发 展 和 优化 。 从 20 世纪 80 年 代 开 始 ， 这 个 领域 开 
始 将 注意 力 向 外 部 转移 ， 与 计算 科学 以 及 其 他 许多 领域 产生 了 重要 的 交互 关系 。 当 意识 到 
计算 机 自身 只 是 研究 信息 过 程 的 一 种 工具 ， 这 个 领域 开始 将 其 关注 点 从 计算 机 器 转移 到 信 
息 变 换 上 。 


第 2 章 计算 领域 


计算 相关 的 实践 活动 来 源 于 设计 和 使 用 计算 系统 的 人 。 计 算 相 关 的 实践 者 在 长 期 的 
实践 活动 中 形成 了 数量 众多 的 实践 区 域 ， 我 们 称 之 为 计算 领域 。 目 前 已 经 存在 了 几 十 种 计 
算 领 域 。 同 一 计算 领域 中 的 人 们 共同 面 对 相 似 的 问题 ， 分 享 相同 的 技巧 和 方法 ， 并 与 其 他 
计算 领域 中 的 人 们 进行 相似 的 交互 。 他 们 享受 计算 的 基本 原理 带 来 的 权利 ， 同 时 也 受到 这 
些 原 理 的 限制 。 我 们 介绍 了 4 种 具有 重要 现实 意义 的 计算 领域 : 信息 安全 、 人 工 智能 、 云 
计算 、 大 数据 。 对 其 中 的 每 一 种 计算 领域 ， 我 们 对 其 演化 历史 进行 了 简要 介绍 ， 然 后 说 明 
该 领域 中 存在 的 不 同 角色 、 每 种 角色 关注 的 问题 、 该 领域 涉及 的 基本 计算 原理 以 及 从 其 他 
非 计算 领域 中 借鉴 的 基本 原理 。 这 种 分 析 方 法 适用 于 对 任何 一 种 计算 领域 的 分 析 。 


第 3 章 信息 


计算 机 的 作用 是 存储 、 变 换 和 传输 信息 ， 这 种 说 法 令 很 多 人 感到 困惑 ， 因 为 信息 是 
抽象 的 ， 并 且 带 有 一 定 程 度 的 主观 性 ， 而 计算 机 只 能 处 理 确定 的 信号 和 事物 状态 。 那 么 ， 
什么 是 信息 ? 是 信号 和 状态 吗 ? 是 人 为 确定 的 含义 吗 ? 事实 上 ,信息 是 一 个 混合 体 ， 是 由 
信号 和 事物 状态 组 成 的 有 含义 的 模式 串 〈 编 码 )。“ 有 含义 ”这 个 词 让 人 们 注意 到 : 模式 串 
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就 是 由 设计 者 设置 的 被 编码 的 解释 ; 机 器 通过 设计 者 给 出 的 规则 来 处 理 编码 ， 设 计 者 需要 
保证 解释 出 来 的 结果 能 够 符合 预期 。 信 息 论 是 用 来 处 理 形成 模式 串 的 编码 理论 ， 它 告诉 我 
们 : 入 规定 了 一 个 可 解密 码 的 最 少 位 数 ， 我 们 可 以 在 编码 中 增加 足够 多 的 宛 余 位 来 保证 在 
噪声 存在 的 情况 下 ， 信 息 也 能 被 100% 地 可 靠 传 输 ， 我们 也 可 以 通过 使 用 更 短 的 编码 表示 
言 息 ， 来 对 文件 进行 压缩 。 关 于 计算 ， 一 个 明显 的 悖 论 是 机 器 处 理 信 息 的 时 候 不 关心 信息 
含义 ， 而 使 用 者 又 是 通过 与 机 器 的 交互 来 知道 这 些 含义 的 。 不 过 当 我 们 意识 到 信息 的 含义 
来 源 于 设计 者 的 意图 时 ， 这 个 悖 论 便 消失 了 。 


第 4 章 机 器 


计算 机 是 加 工 信 息 的 工具 ， 它 执行 一 系列 由 电子 电路 实现 的 计算 指令 。1944 年 问世 
的 存储 程序 计算 机 实现 了 算术 运算 、 逻 辑 运 算 、 条 件 选 择 以 及 循环 迭代 的 指令 。 如 此 简单 
的 一 个 指令 集 ， 却 具备 强大 的 功能 ， 我 们 可 以 通过 编程 来 让 计算 机 来 执行 任何 可 计算 的 功 
能 。 当 然 ， 这 样 的 简便 也 是 有 代价 的 ， 即 使 比较 直观 的 功能 也 可 能 需要 上 亿 条 指令 来 实 
现 。 不 过 ， 因 为 计算 机 执行 速度 如 此 之 快 ， 我 们 可 以 承受 这 种 代价 。 在 20 世纪 50 年 代 
需要 数 周 才能 完成 的 任务 ， 如 今 在 皮 眼 之 间 就 可 以 完成 。 计 算 机 编程 语言 使 得 程序 员 可 以 
简短 地 描述 他 们 想 做 的 事情 ; 编译 器 则 在 保持 原始 表达 含义 不 变 的 条 件 下 ， 将 程序 翻译 
成 机 器 指令 。 和 机 器 指令 相 比 ， 编 程 语 言 增加 了 一 些 额 外 的 概念 ， 例 如 子 程序 调用 和 中 断 
啊 应 ， 这 些 需要 专门 的 机 器 指令 来 支持 。 计 算 电 路 的 设计 者 发 现 ， 由 于 不 确定 性 原则 ， 机 
器 设计 并 不 总 是 能 得 到 好 的 结果 一 一 当 电 路 必须 在 规定 的 时 间 内 区 分 两 个 近乎 同步 的 信和 号 
时 ， 这 可 能 导致 计算 机 停止 运行 或 骨 溃 。 当 时 钟 频率 提高 时 ， 这 种 风险 也 会 随 之 增 大。 我 
们 可 以 通过 降低 时 钟 频率 来 减轻 这 种 风险 ， 或 者 使 用 自 同 步 电 路 ， 持 续 等 待 直到 可 以 将 近 
乎 同步 的 信号 区 分 开 来 。 
第 5 章 程序 设计 

程序 员 很 早 就 意识 到 他 们 将 会 耗费 很 多 的 时 间 去 发 现 自己 编写 的 程序 中 存在 的 错误 
或 运行 程序 的 机 器 中 存在 的 错误 。 他 们 发 明了 程序 设计 语言 来 应 对 这 种 错误 问题 。 程 序 设 
计 语 言 使 得 程序 员 能 够 通过 具有 精确 语法 格式 的 简单 表达 式 来 说 明 程序 的 行为 ; 然后 ， 编 
译 髓 将 程序 转换 为 对 应 的 机 器 指令 序列 〈 这 个 序列 严格 反映 源 程序 的 行为 )。 目 前 已 经 存 
在 数 千 种 的 程序 设计 语言 。 每 一 种 语言 都 有 其 适用 领域 。 每 一 种 语言 都 具有 精确 的 语法 格 
式 和 相应 的 编译 器 。 计 算 机 的 能 力 可 以 通过 虚拟 机 的 方式 得 到 扩展 : 通过 虚拟 机 ， 可 以 在 
指令 集合 中 增加 新 的 复杂 指令 (被 实现 为 子 程序 )。 虚 拟 机 使 得 Java 语言 可 以 运行 在 任何 
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一 种 计算 系统 中 ， 使 得 一 个 操作 系统 的 多 个 版 本 可 以 同时 运行 在 一 台 硬 件 计算 机 上 ， 使 得 
操作 系统 和 网 络 协议 的 功能 层次 结构 得 到 优雅 的 实现 。 
第 6 章 计算 

计算 机 要 花费 多 长 时 间 才 能 完成 既定 的 任务 呢 ? 为 了 回答 这 个 问题 ， 我 们 计算 了 执 
行 一 个 程序 需要 的 指令 数 。 每 一 个 指令 都 需要 一 段 时 间 去 执行 ， 不 管 计算 机 单独 执行 一 个 
指令 有 多 快 ， 所 有 的 指令 加 起 来 还 是 会 有 明显 的 延迟 。 算 法 可 以 根据 它们 的 执行 时 间 来 进 
行 分 类 : 一 些 算法 的 执行 时 间 与 它们 处 理 的 数据 大 小 成 线性 关系 ; 一 些 成 平方 关系 ; 一 些 
成 指数 关系 ; 还 有 一 些 算法 比 指数 增长 关系 更 差 。 我 们 关注 的 大 部 分 都 是 那些 执行 时 间 成 
指数 增长 的 算法 ， 因 为 这 些 算 法 解决 的 问题 一 般 都 比较 重要 ， 并 且 如 果 数 据 集 很 大 的 话 ， 
这 些 算 法 本 质 上 无 法 完成 。 即 使 宇宙 里 的 每 个 颗粒 都 可 以 看 作 一 个 存储 单元 ， 这 样 大 的 内 
存 也 不 足以 解决 这 类 大 规模 的 问题 。 而 且 ， 即 使 我 们 拥有 足够 大 的 内 存 ， 解 决 这 类 问题 所 
需要 的 时 间 会 比 太 阳 系 的 剩余 寿命 还 长 。 我 们 研究 了 为 什么 计算 机 科学 家 认为 能 够 利用 快 
速算 法 解决 的 问题 (“P” 代 表 多 项 式 时 间 ) 和 只 能 用 指数 增长 时 间 甚 至 更 糟 的 算法 解决 
的 问题 (“NP” 代 表 非 确定 性 多 项 式 时 间 ) 是 不 同 的 。 一 般 来 说 ,现实 中 所 有 的 问题 都 受 
到 这 个 限制 ， 比 如 在 传输 网 络 中 分 配 资源 或 者 在 大 数据 集中 找到 最 优 子 集 等 问题 。 在 很 多 
情况 下 ， 我 们 惊奇 地 发 现 一 些 启 发 式 算法 可 以 在 合理 时 间 内 提供 部 分 最 佳 答案 (可 以 提供 
近似 解 )。 最 差 的 情况 是 任何 计算 机 都 不 能 解决 某 种 问题 ， 比 如 说 程序 中 有 死 循 环 或 者 存 
在 恶意 病毒 。 这 种 限制 是 由 信息 自身 的 逻辑 带 来 的 。 


第 7 章 存储 


如 果 不 能 有 效 地 存储 和 检索 信息 ， 我 们 就 无 法 进行 计算 。 信 息 存 储 和 检索 的 四 个 主 
要 原则 是 命名 、 映 射 、 验 证 和 定位 。 命 名 是 指标 明 一 个 计算 过 程 申请 的 所 有 条 目的 方法 ， 
这 些 方 法 包括 记录 地 址 、 数 据 库 查询 以 及 非 结 构 化 数据 的 关键 字 检 索 。 映 射 是 指 在 名 称 和 
对 象 之 间 建 立 一 个 访问 路 径 并 且 利 用 这 种 映射 去 传递 信息 。 验 证 是 指 确认 请 求 访问 的 用 户 
是 否 拥 有 访问 权限 ， 从 而 拒绝 未 授权 用 户 的 访问 。 定 位 是 指 配置 存储 器 层次 结构 或 网 络 中 
的 信息 ， 从 而 使 处 理 器 访问 的 距离 最 小 。 一 般 情 况 下 ， 由 于 CPU 缓存 和 硬盘 的 访问 时 间 
差距 很 大 ， 或 者 一 个 很 忙 的 服务 器 队列 很 长 的 时 候 ， 定 位 是 至 关 重 要 的 。 局 部 性 原理 是 指 
在 一 段 时 间 内 计算 引用 的 内 存 趋 于 聚集 在 一 个 较 小 的 连续 区 域 ， 这 是 所 有 高 效 定 位 方法 的 
基础 。 局 部 性 原理 和 计算 本 身 的 概念 密切 相关 : 同一 个 算法 中 的 每 一 个 操作 都 是 对 固定 范 
围 的 数据 结构 进行 读 取 或 修改 ， 所 以 计算 是 一 定 具有 局 部 性 的 。 
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第 8 章 并 行 

在 传统 上 ， 我 们 更 注重 计算 中 的 串 行 算法 ,但 现实 世界 中 的 大 多 数 活动 都 是 由 偶尔 
同步 的 自治 代理 操作 并 行 完 成 的 。 目 前 ， 并 行 处 理 是 最 普遍 的 计算 模式 。 并 行 有 两 大 类 : 
协作 并 行 和 竞争 并 行 。 当 多 个 进程 一 起 ， 互 相同 步 完成 一 个 共同 的 目标 时 ， 就 会 形成 协作 
并 行 。 例 如 ， 利 用 10 000 个 处 理 器 来 加 速 天 气 预报 。 当 很 少 或 者 没有 同步 关系 的 多 个 进 
程 排队 访问 有 限 的 网 络 资源 时 ， 则 会 形成 竞争 并 行 。 本 章 探讨 了 协作 并 行 中 的 一 系列 问 
题 ， 包 括 避 免 竟 态 条 件 、 对 使 用 中 的 共享 资源 加 锁 、 避 免 死 锁 等 。 在 大 型 系统 中 ， 无 法 保 
证 相互 独立 的 各 子 任务 的 执行 顺序 。 它 们 的 顺序 在 每 一 次 执行 过 程 中 都 可 能 不 同 ， 使 得 其 
结果 不 可 预测 、 其 行为 存在 潜在 的 不 安全 。 在 这 样 的 环境 中 ， 因 为 错误 行为 无 法 重 现 ， 调 
试 几乎 是 不 可 能 的 。 唯 一 的 解决 办 法 就 是 遵守 设计 协议 ， 避 免 不 安全 的 苋 态 条 件 和 死 锁 发 
生 。 这 些 方法 大 都 隐藏 在 操作 系统 内 部 ， 一 般 的 程序 员 并 不 需要 处 理 它 们 。 然 而 ， 多 核 芯 
片 技术 迫使 所 有 程序 必须 熟悉 协作 并 行 方法 一 一 这 是 程序 员 面 临 的 一 个 重大 转变 。 


第 9 章 排队 


本 章 探讨 了 竞争 并 行 的 一 系列 问题 。 一 个 计算 系统 被 建 模 为 一 组 通过 网 络 连接 起 来 
的 服务 器 。 当 用 户 向 系统 提交 作业 (工作 请 求 ) 后 ， 作 业 从 一 个 服务 器 移动 到 另 一 个 服务 
句 ， 收 集 各 服务 器 上 的 服务 结果 ， 直 到 所 有 的 服务 器 都 结束 。 然 而 ， 在 每 台 服 务 器 上 ， 作 
业 都 会 排 成 队列 ， 特 别 是 当 服 务 器 的 处 理 速 度 无 法 跟 上 请 求 的 速度 时 。 排 队 延 迟 可 能 严重 
影响 系统 对 一 个 作业 的 响应 时 间 。 如 何 预 测 一 个 网 络 系统 的 响应 时 间 和 吞吐 率 ? 简单 统计 
一 个 算法 的 步骤 数 仅仅 是 回答 这 个 问题 的 开始 。 我 们 需要 援引 排队 论 中 的 原理 来 回答 性 能 
预测 的 问题 ， 同 时 发 现 并 消除 系统 中 的 瓶颈 。 计 算 机 科学 家 发 现 了 如 何 利用 排队 网 络 来 精 
确 建 模 大 型 计算 系统 的 方法 ， 并 开发 了 用 这 些 模 型 计算 预测 结果 的 快速 算法 。 同 样 的 模型 
在 工业 问题 和 业务 工作 流 问题 中 也 可 以 使 用 。 当 搜索 引擎 使 用 数 千 个 处 理 器 来 快速 处 理 一 
个 查询 时 ， 它 很 好 地 展示 了 排队 网 络 原 理 一 一 并 行 消除 了 瓶颈 。 

第 10 章 设计 

设计 在 计算 领域 的 发 展 历程 中 始终 是 一 个 核心 议题 。 计 算 领 域 第 一 代 的 设计 者 为 我 
们 留 下 了 一 个 非常 好 的 设计 方案 ， 即 : 存储 程序 计算 机 (又 被 称 为 汉 ' 诺 伊 曼 体系 结构 )。 
这 种 设计 方案 至 今 仍 在 使 用 。 存 储 程序 计算 机 使 用 指令 集合 作为 用 户 接口 ， 孕 育 了 程序 设 


计 这 一 技术 职业 。 它 也 导致 了 调试 技术 的 出 现 ， 调 试 技术 提供 了 一 种 系统 性 的 方式 去 发 现 
程序 中 的 错误 。 软 件 设计 者 在 实践 中 形成 了 5 种 重要 的 设计 准则 : 需求 、 正 确 性 、 容 错 
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性 、 时 效 性 、 适 用 性 。 需 求 关注 于 系统 行为 的 准确 描述 ; 正确 性 关注 于 如 何在 构造 过 程 中 
防止 错误 的 发 生 ; 容错 性 关注 于 在 错误 被 修正 /去 除 之 前 最 小 化 错误 的 后 果 ; 时 效 性 关注 
于 如 何 对 系统 进行 配置 从 而 保证 计算 结果 的 准时 性 ; 适用 性 关注 于 用 户 满意 度 。 为 了 满足 
上 述 设计 准则 ， 软 件 设计 者 探索 出 5 种 有 效 的 设计 模式 : 层级 式 聚 合 (体现 在 抽象 、 分 解 、 
模块 化 、 信 息 隐藏 中 )、 封 装 、 级 别 (层次 )、 虚 拟 机 、 对 象 。 这 些 模 式 被 实现 在 语言 、 应 
用 程序 、 操 作 系 统 的 结构 中 。 设 计 对 于 决定 一 个 计算 系统 的 成 败 具 有 非常 关键 的 作用 。 如 
何 进行 优秀 的 设计 可 能 是 计算 领域 中 最 大 的 一 个 挑战 。 


第 11 章 网 络 


Internet 是 最 重要 的 计算 技术 之 一 ,该 章 是 关于 Internet 的 一 个 案例 研究 。Internet 的 
每 一 个 主要 部 分 都 利用 了 第 1 章 提 到 的 6 大 原则 。 这 些 主要 部 分 紧密 地 联系 在 一 起 ,使 
得 Internet 变 成 了 一 个 可 靠 、 可 信 、 可 持续 扩展 的 庞大 系统 。 不 同 于 电话 网 络 中 使 用 的 线 
路 转 接 技术 ，Internet 使 用 包 交 换 技术 来 传递 信息 。 在 自动 路 由 的 过 程 中 ， 当 路 由 到 网 络 
中 某 些 损坏 部 分 时 ， 节 点 和 连接 的 丢失 是 不 可 避免 的 ， 包 交换 技术 可 以 使 得 Internet 在 这 
种 情况 下 也 能 正常 工作 。 了 P 协议 对 每 个 主机 分 配 一 个 单独 的 整个 Internet 范围 内 可 识别 的 
地 址 ， 使 得 Internet 跨 过 了 数 百 万 的 局 域 网 络 。TCP 协议 将 数据 的 字 节 流 分 割 成 了 若干 个 
连续 的 有 序号 的 包 ， 从 发 送 端 发 送 ， 在 接收 端 接收 并 重新 组 装 成 原始 数据 流 。 包 的 应 答 机 
制 向 发 送 者 保证 了 包 已 经 被 接收 ， 超 时 机 制 提 醒 发 送 者 重新 发 送 未 被 应 答 的 包 。DNS 给 
了 予 了 每 个 主机 一 个 唯一 的 字符 名 字 并 将 这 些 字符 名 字 对 应 到 其 IP 地址。 服务 器 - 客户 端 
模型 使 用 TCP 协议 建立 联系 并 访问 这 些 网 络 ， 一 个 国际 化 管理 系统 将 基本 的 网 络 服务 分 
配 到 固定 的 标准 端口 上 。 万 维 网 ( WWW) 能 将 任意 主机 的 文档 连接 到 网 络 中 的 任意 数字 
对 象 ， 并 为 连接 的 用 户 提供 一 份 对 象 的 拷贝 。 这 个 庞大 的 系统 使 用 了 包括 通信 (编码 和 错 
RBE) HA (安全 加 密 、 路 由 表 )， 协 调 工 作 (协议 、 多 路 复 用 技术 )， 复 用 (命名 、 地 
址 、 超 高 速 缓存 技术 )， 评 估 (流量 控制 、 通 信和 量 研 究 ) 和 设计 《网 络 层 、 服 务 器 - 客户 端 
系统 、 端 对 端 协议 ) 等 众多 原理 和 技术 。 对 网 络 中 连接 的 研究 引出 了 新 的 诸多 网 络 连 接 模 
型 和 一 个 新 的 叫做 “网 络 科学 ”的 研究 领域 。 


第 12 章 后 记 


对 贯穿 于 本 项 目的 一 些 关键 问题 的 观察 与 思考 ， 我 们 进行 了 总 结 : 无 思维 机 器 ， 智 
能 机 ， 架 构 与 算法 ， 经 验 思维 ， 新 机 器 时 代 ， 转 变 我 们 的 思维 ， 以 及 设计 的 中 心地 位 。 
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第 1 章 

1. Matti Tedre (2014) 对 数学 、 工 程 、 科 学 等 领域 的 传统 在 计算 领域 中 的 体现 进行 了 
非常 完整 和 详细 的 历史 回顾 。 在 20 世纪 80 年 代 ， 来 自 不 同 领 域 的 传统 之 间 偶 尔 也 出 现 
了 冲突 。 例 如 ， 当 时 有 数学 家 认为 ， 计 算 理 论 是 真正 的 计算 机 科学 ， 计 算 机 工程 只 是 一 种 
技术 ; 而 有 些 计算 机 工程 师 则 认为 数学 并 没有 为 构造 实际 可 运行 的 计算 机 和 计算 机 网 络 提 
供 任何 帮助 。 他 们 甚至 开始 争吵 软件 工程 是 否 应 该 被 作为 计算 机 科学 的 一 部 分 ， 或 者 是 否 
应 该 被 作为 一 个 单独 的 工程 学 科 。 随 着 计算 领域 逐渐 对 这 些 来 自 不 同 领域 的 传统 进行 了 有 
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效 的 融合 ， 这 些 零星 出 现 的 冲突 基本 上 不 复 存 在 。 在 对 众多 其 他 领域 提供 服务 的 过 程 中 ， 
计算 作为 一 个 独立 领域 的 地 位 得 到 确认 。 

2. 在 本 书 中 ， 我 们 将 原来 的 7 种 类 别 简化 为 6 种 。 被 去 除 的 分 类 是 自动 化 : 自动 化 
是 计算 的 一 个 高 层 领域 ， 关 注 于 如 何以 及 何 时 对 人 类 的 认 知 任务 进行 自动 化 。 在 第 2 章 
中 ， 我 们 将 该 领域 称 为 “人 工 智能 ”。 

第 3 章 

1. James Carse (1986) 在 1986 年 对 游戏 也 做 了 相似 的 区 分 。 他 说 “现在 至 少 有 两 种 不 
同 的 游戏 。 一 种 叫做 有 限 游 戏 ， 一 种 叫做 无 限 游戏 。 玩 有 限 游戏 是 为 了 能 够 获得 最 后 的 胜 
利 ， 玩 无 限 游戏 的 目的 是 为 了 能 一 直 玩 下 去 ”。 这 两 种 游戏 有 着 本 质 上 的 不 同 。 尽 管 他 不 
是 在 讨论 计算 机 ， 这 种 区 分 方式 也 进一步 深刻 体现 了 有 限 算法 和 无 限 交 互 系 统 的 不 同 。 

2. 发 送 者 可 以 以 一 次 一 密 的 方式 加 密 信息 ， 方 法 是 首先 生成 一 个 与 信息 bit 数 一 样 的 
随机 串 ， 然 后 将 两 个 串 逐 位 进行 异 或 操作 ， 得 到 的 结果 就 是 信息 的 密 文 〈 异 或 操作 是 当 两 
位 相同 为 0， 不同 为 1 )。 接 收 者 将 密 文 重新 与 随机 串 进行 异 或 来 得 到 明文 。 香 农 证 明了 
密 文 的 炉 是 最 大 的 ， 这 意味 着 穷 听 者 得 到 密 文 并 不 会 得 到 任何 有 用 的 信息 。 那 明文 和 其 中 
的 信息 去 哪 了 呢 ? 其 实 信息 并 不 在 秘 钥 或 者 密 文 之 中 ， 而 是 在 由 设计 者 定义 的 明 密 文 转化 
之 中 。 这 对 加 密 -解密 的 方式 很 好 地 保持 了 原文 的 含义 。 一 些 其 他 的 加 密 系 统 使 用 更 短 
的 秘 钥 ， 在 这 种 情况 下 ， 密 文中 一 些 宛 余 的 信息 可 能 会 被 破译 者 所 利用 。 

第 4 章 

1. Hennessey 和 Patterson 的 书 (2011) 完美 地 覆盖 了 计算 机 体系 结构 的 各 个 方面 。 
我 们 通常 将 存储 程序 式 计 算 机 的 原始 结构 归功 于 John von Neumann (1945), 但 是 从 他 发 
#2) 4 Eckert, Mauchly, Burks 和 Goldstine 等 人 的 会 议 记 录 来 看 ， 大 部 分 体系 结构 的 想 
法 都 来 自 于 Eckert 和 Mauchly， 而 不 是 他 本 人 。 

2.1956 年 , [BM 发 明了 新 的 硬盘 存储 系统 RAMAC (Random Access Memory 
Accounting Machine， 随 机 存 取 磁盘 驱动 器 )， 这 是 第 一 个 能 够 随机 地 进行 存储 访问 的 硬 
盘 。 随 机 意味 着 完成 一 次 访问 的 时 间 是 由 寻 道 时 间 〈 读 写 头 定位 ) 和 延迟 时 间 〈 旋 转 定位 ) 
组 成 的 一 个 随机 变量 。 现 在 RAM 指 的 是 计算 机 芯片 中 的 主 存 ， 但 是 随机 还 有 另外 一 个 意 
思 ， 那 就 是 随机 选中 一 个 地 址 ， 对 它 的 访问 时 间 都 是 固定 的 。 

3. Corrado Bohm 和 Giuseppe Jacopini ( 1966 ) 证 明了 任何 可 计算 的 功能 都 可 以 通过 
只 由 这 三 种 结构 组 成 的 程序 进行 计算 。 这 个 理论 被 证 明 是 正确 的 ， 使 得 程序 更 容易 理解 ， 
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同时 被 当 作 “结构 化 程序 设计 ”的 基础 。 几 年 之 后 David Harel (1980 ) 将 这 种 理论 追溯 
BS + 诺 依 曼 体系 结构 本 身 的 设计 和 在 20 世纪 30 年 代 由 Stephen Kleene 证 明 过 的 标准 化 
定理 。 

4. Jan Lukasiewicz (1957) 表示 他 第 一 次 看 见 符号 这 个 概念 是 在 1924 年 。Arthur 
Burks, Don Warren 和 Jesse Wright (1954) 是 第 一 次 注意 到 逆 波 兰 表 示 法 可 以 简化 表达 
式 的 机 械 计算 。Fritz Bauer 和 Edsger Dijkstra 是 在 20 世纪 60 年 代 初 各 自发 现 了 这 点 ( 维 
基 百 科 )。 

5. 递归 可 以 使 程序 变 得 更 简单 。 例 如 ， 我 们 可 以 将 一 个 排序 程序 写成 下 列 形式 : 
SORT (list) = {SORT(left half of list) ; SORT(right half of list) ; MERGE (left half, right 
half)} ， 边 界 条 件 是 SORT(empty list) = empty list。 每 一 个 内 层 调 用 SORT 函数 的 输入 列 
表 必 须 比 外 层 调 用 的 要 小 。 

6. 这 一 准则 与 量子 物理 学 中 海 森 堡 测 不 准 原理 非常 相似 。 测 不 准 原理 是 说 位 置 和 动 
量 的 标准 差 的 乘积 至 少 为 10” 焦 秒 。 其 中 一 个 量 越 确 定 ， 另 一 个 量 的 不 确定 程度 就 越 大 。 
海 森 堡 原 理 的 部 分 原因 是 ， 观 测 行为 本 身 就 会 增加 或 减少 被 观测 粒子 的 能 量 ， 但 这 只 会 发 
生 在 原子 尺度 的 电子 上 ， 而 不 会 在 宏观 尺度 的 电线 电流 中 。 选 择 不 确定 原则 并 不 是 海 森 堡 
原理 的 一 个 实例 。 

7. 异步 电路 ( 见 第 8 章 ， 并 行 ) 是 由 一 些 用 就 绪 - 确认 信号 进行 交互 的 模块 组 成 。 它 
们 这 样 设计 是 为 了 在 介 稳 状态 下 不 会 产生 就 绪 和 确认 信号 。 异 步 电 路 不 需要 时 钟 ， 通 常 比 
时 钟 电路 要 快 ， 因 为 模块 就 绪 后 就 可 以 发 射 信号 ， 不 需要 等 到 下 一 个 时 钟 周期 。 

第 5 章 

1. 关于 程序 设计 语言 的 更 一 般 介绍 可 以 参见 Pierce (2002) 和 Louden (2011)。 

2. 通过 Google 搜索 引擎 ， 我 们 发 现 来 自 澳大利亚 佩 思 Murdock 大 学 的 一 个 小 组 声称 已 
经 建立 了 一 个 包含 8500 种 程序 设计 语言 的 数据 库 。 不 过 我 们 没有 验证 这 一 数据 是 否 真 实 。 

3. 这 些 数据 可 以 在 维基 百科 或 其 他 一 些 来 源 中 看 到 。 一 篇 发 表 于 《 Harvard Business 
Review 》 的 文章 (Flyvbjerg 和 Budzier 2011 ) 指出 : IT 领域 的 平均 预算 超支 率 在 27% 左 
A; 六 分 之 一 的 项 目 预算 超支 两 倍 以 上 ， 开 发 日 程 延期 70% 以 上 。 

4. 将 高 级 语言 编写 的 源 程序 自动 翻译 为 机 器 代码 的 思想 可 以 追溯 到 20 世纪 50 年 代 。 
经 过 多 年 的 研究 之 后 ， 人 们 才学 会 如 何 解析 程序 并 生成 高 效 的 机 器 代码 。 今 天 ， 自 动 翻 
译 已 经 成 为 一 个 子 领域 。Aho、Lam、Sethi 和 Ullman (2006) 的 图 书 对 这 个 子 领 域 的 理论 
与 实践 应 用 进行 了 非常 全 面 的 论述 。 本 书 对 这 些 理论 进行 提炼 ， 仅 保留 了 最 本 质 的 内 容 。 
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Brown A (2012) 的 图 书 讨论 了 两 个 著名 的 Unix 程序 : Lex 和 Yacc。 这 两 个 程序 支持 
基于 程序 语言 语法 的 BNF 范式 生成 编译 器 。 

5. 这 种 情况 大 多 出 现在 那些 在 多 种 平台 上 运行 的 标准 化 程序 。 例 如 ，HTML 、Java、 
Javascript 语言 具有 明确 的 国际 标准 ; 但 是 ，web 设计 者 仍然 需要 将 其 编写 的 页 面 在 多 种 
不 同 的 平台 上 进行 测试 ， 因 为 在 不 同 的 平台 上 ， 一 段 相同 的 程序 往往 会 体现 出 不 完全 相同 
的 行为 。 

第 6 章 

1. O(n’) 复杂 度 对 于 矩阵 乘法 来 说 不 是 最 优 的 。Volker Strassen (1969) 发 现 了 一 种 方 
AERE Omn), JR Coppersmith 和 Winograd (1990) 发 现 了 另 一 种 方法 使 
得 复杂 度 降 到 了 O(n??”), 但 是 这 些 快速 算法 非常 复杂 并 且 不 那么 直观 。 

2. 早 在 1897 年 ， 人 们 就 对 缘 包 问题 的 各 种 变种 有 所 人 研究。 然而 ， 直 到 1930 年 ， 数 


学 家 Tobias Dantzig 才 在 他 的 一 篇 文章 《 数 : 科学 的 语言 》 中 给 其 命名 。 

3. 参见 http://www.math.uwaterloo.ca/tsp/sweden/ 和 http://chern.ie.nthu.edu.tw/gen/ 12.pdf. 
第 7 章 

1. 映射 功能 是 由 CPU 中 一 个 叫做 内 存 映 射 单 元 (MMU) 的 硬件 实现 的 。MMU 包 
含 一 个 叫做 转换 后 备 缓冲 器 (TLB) 的 小 的 高 速 缓存 ， 它 保存 了 最 近 的 从 访问 页 面 到 页 
框 的 映射 。 如 果 要 访问 的 目标 页 正好 在 TLB 的 列表 上 ，MMU 可 以 跳 过 页 面 查找 ， 从 而 
节省 一 次 内 存 访问 。 假 设 忽略 访问 页 面 表 的 延 返 ，TLB 可 以 使 映射 过 程 提速 到 只 用 原来 
1% ~ 3% 的 时 间 。 

2. 下 面 是 关于 能 力 系统 的 文献 的 一 些 例子 。Jack Dennis 和 Earl Van Horn (1966 ) 提 
出 了 能 力 系 统 这 个 想法 。Robert Fabry (1974) 发 现 能 力 寻 址 是 解决 数据 共享 问题 的 最 好 
办 法 。Bill Wulf 和 他 的 同事 (1974) 实现 了 链接 到 对 象 的 能 力 内 核 。Maurice Wilkes 和 
Roger Needham (1979) 在 剑桥 大 学 建立 了 一 个 基于 能 力 的 机 器 和 操作 系统 。Henry Levy 
(1984) 写 了 一 个 关于 能 力 系统 及 其 工作 原理 的 总 结 和 概述 。Mark Miller (2003) LK T JL 
个 关于 能 力 系统 的 错误 看 法 。 

3. Tahoe Least Authority File System (https://tahoe-lafs.org) 是 一 个 使 用 能 力 寻 址 的 开 
源 文 件 系统 。 每 个 服务 器 都 不 能 越权 访问 ， 因 为 它们 只 能 获得 恰好 能 完成 它们 任务 所 需 的 
能 力 。 如 果 某 些 对 象 发 生 了 错误 ， 也 不 会 扩散 到 其 他 的 对 象 。 

4. MIN 策略 是 由 Belady (1966) 为 虚拟 内 存 提出 的 最 优 策 略 。 如 果 一 个 页 面 缺 失 ， 
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新 载 人 的 页 面 就 会 蔡 换 一 个 下 次 访问 时 间 最 远 的 已 载 人 页 面 。 不 管内 存 大 小 ， 没 有 其 他 
的 固定 分 区 存储 策略 会 产生 比 MIN 策略 更 低 的 页 缺失 。 然 而 ，MIN 策略 不 能 改变 RAM 
的 分 配 ， 它 不 能 移 除 已 经 加 载 的 页 面 ， 除 非 有 其 他 的 页 面 需要 被 加 载 进来 。 相 比 之 下 ， 
VMIN 策略 的 做 法 是 ， 如 果 可 以 预见 到 在 阐 值 时 间 内 这 个 页 面 不 会 再 次 被 使 用 ， 就 立刻 删 
除 这 个 页 面 。 当 我 们 调整 VMIN 的 阐 值 时 间 ， 使 得 它 内 存 分 配 平 均 大 小 等 于 MIN 策略 下 
固定 的 内 存 分 配 大 小 ，VMIN 策略 产生 的 页 缺失 会 更 少 。 

5. IBM 研究 中 心 的 Les Belady 和 麻 省 理工 学 院 的 Peter Denning 在 1966 年 都 提出 
了 局 部 性 原理 ， 并 共同 对 其 进行 了 研究 证 明 。Belady (1966) 用 它 解 释 了 分 页 算法 的 非 随 
机 性 能 ，Denning (1968a) 描述 了 程序 的 内 在 内 存 需 求 。 从 那 之 后 很 多 研究 人 员 开 始 在 许 
多 系统 中 研究 这 一 原理 。 局 部 性 原理 是 计算 机 科学 中 被 广泛 证 明 的 原理 之 一 Denning 
1980 )， 现 在 仍然 被 用 来 研究 缓存 性 能 的 最 优化 问题 (Xiang 等 ，2013 ) 。 

6. 这 应 该 按 程 序 的 虚拟 运行 时 间 来 度量 ;一 次 内 存 访问 计 为 单位 时 间 长 度 。 通 常 忽 
略 由 中 断 〈 比 如 磁盘 请 求 ) 造成 的 延迟 ， 但 是 如 果 这 些 延 迟 与 性 能 分 析 相 关 ， 就 会 被 计算 
在 内 (Denning 1980), 

7. 拌 动 是 指 当 多 任务 负载 超出 一 个 动态 变化 的 临界 值 时 系统 吞吐 量 的 突然 崩 演 现象 。 
当 RAM 太 小 ， 无 法 容纳 所 有 活动 程序 的 工作 集 时 ， 这 种 情况 就 会 发 生 。 程 序 如 果 空 间 不 
足 就 会 锚 取 其 他 工作 集 的 页 面 ， 造 成 更 多 的 页 缺失 。 很 快 所 有 程序 就 会 全 部 失去 工作 集 ， 
然后 在 磁盘 中 排 起 队列 等 待 系统 解决 它们 的 页 缺失 问题 (Denning 1968b)。 排 队 网 络 模 型 
显示 ， 当 不 断 增加 的 页 面 需 求 使 得 分 页 磁盘 成 为 整个 系统 的 瓶颈 时 ， 拌 动 现象 就 会 发 生 
(Denning 等 ，1976 )。 

第 8 章 

1. 真正 的 天 气 预测 要 复杂 得 多 。 它 会 采用 六 个 面相 接触 的 三 维 立方 体 ， 并 且 还 要 考虑 
仅 在 角 上 接触 的 相 邻 立方 体 产生 的 影响 。 气 压 公式 会 更 复杂 ， 要 考虑 风速 和 风向 的 影响 。 

2. Modula 是 Pascal 的 一 个 修订 版 ，1977 年 到 1985 年 间 由 Niklaus Wirth 设计 开发 。 
Smalltalk 是 由 Xerox PARC 的 Adele Goldberg ( 1983 )、Alan Kay、Dan Ingalls 等 人 于 
1980 年 创造 ， 并 于 1988 年 成 为 ANSI 标 准 。CLU 是 由 MIT 的 Barbara Liskov(1977) 及 其 
学 生 开 发 的 。 实 现 了 Hoare 的 CSP 模型 ( 1985) 的 Occam 是 由 INMOS 公司 的 David May 
于 1984 年 开发 的 ，INMOS 公司 是 一 家 生产 用 于 并 行 超级 计算 机 的 被 称 为 transputers ith 
片 的 制造 商 。 

3. MIT 的 Jerry Saltzer(1965) 把 进程 定义 为 “在 处 理 器 上 执行 的 程序 ”。MIT 的 Jack 
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Dennis 和 Earl Van Horn(1966) 把 进程 定义 为 “一 个 指令 序列 的 控制 轨迹 ”， 而 贝尔 实验 
室 的 Vic Vyssotsky 则 把 进程 定义 为 “线程 ”。 埃 因 霍 温 技术 学 院 ( Technische Hogeschool 
Eindhoven) 的 Edsger Dijkstra(1968a，1968b) 将 进程 定义 为 “ 随 着 程序 中 指令 执行 的 
CPU 状态 序列 ”。 

4. Æ CSP 中 ，Hoare 将 Dijkstra 的 信号 量 蔡 换 为 一 种 更 简单 的 协作 机 制 一 一 会 合 
(rendezvous)， 即 要 交换 数据 的 两 个 进程 达到 各 自 的 会 合 点 ， 此 时 数据 通过 一 个 通道 在 两 
者 之 间 交 换 。 

5. 人 们 通常 认为 是 Nico Habermann(1969) 为 死 锁 建立 了 第 一 个 形式 化 模型 。 他 指出 
操作 系统 可 能 会 进入 到 目前 没有 死 锁 但 未 来 肯定 会 死 锁 的 不 安全 状态 。 他 证 明了 “银行 家 
算法 ”可 以 确定 一 个 给 定 的 资源 分 配 是 否 安全 。Coffman 和 Denning(1973) 讨论 了 其 他 一 
些 关 于 安全 性 的 算法 ， 由 于 开销 的 原因 ， 这 些 算法 很 少 会 用 到 。 

6. 为 了 形象 地 说 明 这 一 点 ,假定 满足 了 约束 之 后 ,仍然 有 一 组 死 锁 的 进程 。 死 锁 进程 
所 持 有 的 编号 最 大 的 锁 不 会 被 释放 ， 因 为 有 一 个 死 锁 进程 持 有 它 。 该 锁 的 持 有 者 本 身 必定 
也 在 等 待 一 个 锁 ， 按 照 约束 ， 这 个 等 待 的 锁 的 编号 必须 更 大 。 这 与 死 锁 存在 的 假设 相 了 矛盾。 

7. Dijkstra 的 著名 的 哲学 家 就 餐 问 题 可 以 用 该 方法 来 解决 。 设 想 一 张 圆桌 周围 有 五 个 
座位 ， 每 个 座位 前 摆 着 一 个 盘子 ， 每 两 个 盘子 之 间 有 一 把 又 子 。 经 常 有 哲学 家 过 来 坐 下 ， 
从 盘子 中 间 的 碗 里 夹 面 条 吃 。 要 吃 到 面条 ， 哲 学 家 需要 从 他 的 盘子 两 边 拿 到 两 把 叉子 。 当 
他 们 都 试图 同时 拿 起 同一 侧 的 又 子 (比如 右边 )， 就 可 能 会 产生 死 锁 : 现在 ， 每 个 人 都 在 
等 待 他 的 邻居 放下 叉子。 如 果 每 把 叉子 都 编号 了 ， 并 且 每 个 哲学 家 都 先 拿 起 编号 较 小 的 又 
子 ， 这 个 循环 等 待 就 不 会 发 生 。 

8. Richard Karp 和 Raymond Miller(1966, 1969) 首次 证 明了 这 一 定理 。Coffman 和 
Denning(1973) 则 在 操作 系统 环境 中 证 明了 该 定理 。Brinch Hansen(1973) 宣布 它 是 操作 系 
统 的 一 个 重要 原理 。 


第 9 章 

1. 对 应 用 到 计算 机 系统 和 网 络 中 的 全 面 的 排队 论 理论 和 方法 感 兴趣 的 读者 ， 我 们 推 
荐 下 列 书 籍 : Kleinrock (1975, 1976), Kobayahsi 和 Mark (2008), Lazowska 等 (1984)、 
Menascé 和 Almeida (2002), Menascé 等 (1994) 和 Stewart(2009)。 

2. 利用 率 法 则 和 利 特 尔 法 则 与 稳定 状态 下 随机 排队 系统 中 著名 的 极限 定理 (limit 


theorem) 非常 相似 。 极 限定 理 经 常 在 实际 测量 中 被 验证 ， 不 是 因为 达到 了 稳定 状态 ， 而 
是 因为 测量 的 各 个 量 服从 运算 法 则 (Buzen 1976)。 
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3. 指定 一 系列 单元 ， 称 为 An], n=0, 1, … , N。 这 些 单元 分 别 保存 p(n) 的 试验 值 ， 
假设 p(0)=1 (这 个 假设 并 不 正确 )， 在 各 单元 中 插入 平衡 方程 ， 作 为 从 HIn-1] 计算 Hin] 
的 公式 。 这 样 得 到 的 各 试验 值 服从 平衡 方程 ， 但 其 和 不 等 于 1。 我 们 可 以 使 用 如 下 方法 让 
它们 和 为 1 : 首先 ,创建 一 个 新 的 单元 “sum ”表示 lO] +...+ ALN]; 然后 ， 创 建 一 组 新 
WAJ pfn], n= 0, 1,…, N; Ba, E p 单元 中 放 入 公式 pfn] = H[n]/sum。 这 样 ，p 单元 
中 各 值 的 和 为 1， 且 服从 平衡 方程 。 

4. 状态 是 一 个 向 量 (n, a), HP n 是 服务 器 i 的 状态 ， 所 有 ni 的 和 是 系统 的 负 
载 V。 我 们 可 以 用 N 个 1 和 天 -1 个 0 组 成 的 字符 串 来 表示 一 个 向 量 。 由 0 所 分 隔 的 那些 
由 1 组 成 的 子 串 《两 个 连续 的 0 表示 中 间 有 一 个 长 度 为 0 的 1 串 )， 其 长 度 等 于 某 个 分 量 。 
所 有 可 能 的 字符 串 的 数量 是 (W+ 天 -TVNI(K=- 1)! 


第 10 章 

1. 据说 Ada Lovelace 是 人 类 历史 上 第 一 个 数字 计算 机 程序 员 ; 在 19 世纪 40 年 代 
初期 ， 她 协助 Charles Babbage 进行 分 析 机 的 设计 。Babbage 没有 能 够 完成 分 析 机 设计 ， 
Lovelace 设计 的 程序 也 从 来 没有 真正 运行 过 。 从 此 以 后 ， 直 到 20 世纪 40 年 代 初 ( 100 年 
以 后 )， 才 又 有 人 开始 从 事 程序 设计 的 工作 ; 直到 这 个 时 候 ， 程 序 设计 才 成 为 一 种 技术 职 
业 。 程 序 设计 的 实践 产生 了 很 多 新 的 设计 者 ， 他 们 设计 出 了 程序 语言 、 程 序 编辑 器 、 翻 译 
器 、 调 试 需 、 版 本 控制 系统 、 图 形 用 户 界面 、 应 用 程序 等 许多 新 的 工具 或 功能 。 

2. Christopher Alexander 开启 了 建筑 体系 结构 学 派 ， 被 认为 是 “建筑 的 永恒 之 道 ” 
( 1979 )。 他 认为 ， 有 经 验 的 设计 者 在 进行 设计 决策 时 往往 只 依赖 于 一 小 组 固定 的 模式 。 

3. 德国 工业 设计 师 Dieter Rams 总 结 形成 了 优秀 设计 的 10 个 方面 ， 人 们 通常 将 其 称 
Fy “Rams 设计 原理 ” (来源: 维基 百科 )。 

4. 2007 年 ， 模 型 检查 的 提出 者 Edmund Clark、E. Allen Emerson, Joseph Sifakis 因 
为 他 们 的 杰出 成 就 获得 ACM 图 灵 奖 。 

5. 错误 限制 经 常 出 现在 其 他 领域 中 。 船 只 被 划分 为 不 同 的 区 域 ; 每 个 区 域 由 水 密封 
门 相互 隔离 ; 这 样 ， 在 船体 发 生 局 部 漏水 的 情况 下 ， 船 只 也 很 难 沉没 。 热 气球 被 划分 为 不 
同 的 区 域 ， 以 减少 气球 被 刺 穿 后 的 风险 。 桥 梁 由 数 千 个 三 角 部 件 组 合 形成 ; 这 样 ， 一 个 三 
角 部 件 被 破坏 后 ， 桥 梁 也 很 难 倒塌 。 

6. 技术 哲学 家 Carl Mitcham (1994) 将 “技术 知识 ”描述 为 : (1) 制作 的 技巧 
(“know-how”); (2 ) 描述 性 规律 (特定 条 件 发 生 时 应 该 采取 什么 行动 ); (3) RAR (A 
验 规则 ) ; (4) 技术 理论 (将 科学 理论 应 用 至 实践 中 )。 在 我 们 的 术语 体系 中 ， 基 本 原理 是 
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XP til PERI AIR, BESTE PE UE AY FRR, NE OR RT I o 

7. http://en.wikipedia.org/wiki/Software_design pattern, Æ 2014 年 ， 这 个 页 面 中 列 出 
T 9 个 创建 型 模式 、9 个 结构 型 模式 、15 个 行为 型 模式 、15 个 并 发 型 模式 。 

8. Xerox Palo Alto 研究 中 心 的 Jay Israel, James Mitchell, Howard Sturgis ( 1978 ) 提 
ETAP im- ARS AEA, Alfred Spector ( 1982 ) Andrew Birrell 和 Bruce Nelson ( 1984 ) 
基于 这 种 模型 实现 了 远程 过 程 调用 (RPC). 1984 年 ,Robert Sheifler 和 James Gettys( 1984 ) 
在 MIT 开发 出 X-Window 系统 (Scheifler 等 ,1988 )。X-Window 是 一 个 一 般 性 的 客户 端 - 
服务 器 宿主 系统 : 用 户 提供 客户 端 和 服务 器 代码 ，X-Window 则 通过 网 络 提供 通信 服务 。 

9. 设计 者 的 才能 和 技巧 不 是 一 些 琐碎 的 点 。 在 互联 网 上 可 以 很 容易 地 搜索 到 很 多 的 
相关 研究 工作 。 其 中 的 一 个 基本 发 现 是 ， 最 优秀 的 程序 员 在 生产 效率 上 是 入 门 级 程序 员 的 
10 倍 或 以 上 。 优 秀 的 程序 员 能 在 所 有 的 细节 层次 上 对 一 个 大 型 系统 进行 想象 ， 并 将 他 们 
的 想象 快速 变换 为 可 实际 运行 的 代码 。 对 一 个 软件 公司 而 言 ， 寻 找到 一 个 具有 10 倍 工作 
效率 的 程序 员 并 付 给 他 /她 双 倍 的 薪水 ， 将 是 一 个 非常 划算 的 买卖 。 这 远 比 雇佣 10 个 人 
门 级 程序 员 并 尝试 对 他 们 进行 管理 要 划算 得 多 。 


第 11 章 


1. 网 络 工程 师 对 网 络 和 主机 进行 了 区 分 ， 网 络 是 一 系列 传递 数据 包 的 路 由 器 与 链接 
的 集合 ， 主 机 是 通过 标准 接口 接 人 网 络 的 系统 。 最初 的 ARPANET ( 20 世纪 70 年 代 ) 是 
一 个 称 作 “接口 报 文 处理 器 ”(IMP) 的 数据 包 开 关 的 网 络 。 他 们 建立 了 很 多 所 谓 的 子 网 络 
以 便 主机 接 入 。IMP 实现 了 真正 的 网 络 功能 ， 主 机 表现 为 消息 的 接收 端 或 者 来 源 。 第 一 个 
版 本 的 Internet 软件 〈20 世纪 80 年 代 ) 使 用 叫做 “网 关 ” 的 机 器 将 各 个 包 交换 网 络 互相 
连接 。 最 终 ， 网 关 被 重新 命名 为 路 由 器 ， 主 机 通过 路 由 器 连接 到 网 络 。 

2. 下 述 是 关于 Internet 历史 的 一 个 简单 介绍 。 关 于 这 段 历 史 的 更 多 细节 可 以 在 Barry 
Leiner(1996) 等 人 写 的 文档 中 ， 或 者 在 Katie Hafner 和 Matthew Lyon(1999) 写 的 书 中 找到 。 

MIT AY J. C. R. Licklider 在 1960 年 描述 了 极 具 想 象 力 的 未 来 场景 : 一 个 能 够 将 全 世 
界 电脑 连接 起 来 的 网 络 。 这 个 网 络 能 够 支持 所 有 的 资源 交换 ， 拥 有 无 所 不 在 的 计算 能 力 、 
智慧 端口 、 新 的 研究 方法 和 新 的 商业 类 型 ( Licklider 1962，1963 ) 。 在 1961 Æ, UCLA 
的 Leonard Kleinrock 设计 了 一 种 随机 的 通信 网 络 模型 ， 该 模型 能 够 将 离散 的 信息 向 终 
点 传送 并 且 在 中 间 网 点 进行 排队 ( Kleinrock1961, 1964). RAND 公司 的 Paul Baran 在 
1964 年 发 表 了 一 系列 关于 新 的 网 络 架 构 即 分 布 式 通信 系统 的 论文 ， 这 一 系统 能 够 让 连接 
和 节点 免 于 损坏 (Baran，1964a，1964b)， 其 中 数字 语音 比特 流 被 分 成 能 够 在 路 由 器 中 传 
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送 并 且 发 送 到 目的 地 的 小 数据 块 。 英 国 国家 物理 实验 室 的 Donald Davies 开始 使 用 “ 包 ” 
(packet) 这 一 术语 去 描述 那些 小 的 数据 块 ， 并 且 这 一 术语 最 终 成 为 标准 。 

1967 年 DARPA 的 Bob Taylor 请 Larry Roberts 去 领导 一 个 新 的 项 目 ， 这 一 项 目 是 建 
立 一 个 能 够 实现 那些 想象 场景 (Roberts 1967，Roberts 和 Merrill 1966 ) 的 分 布 式 的 网 络 
ARPANET。Roberts、Len Kleinrock 和 Wesley Clark 共同 合作 进行 这 一 项 目 。Clark 提议 
网 络 能 够 配置 成 由 典型 的 小 型 计算 机 (接口 报 文 处 理 器 ，IMP) 组 成 的 子 网 ， 它 能 传送 数 
据 包 并 以 接口 的 形式 为 异 质 的 计算 机 服务 。 当 时 还 没 人 去 构建 Baran 的 想法 。ARPANET 
的 前 两 个 节点 在 1969 年 底 的 时 候 开始 工作 。 

从 1970 年 到 1983 年 ，Steve Crocker 领导 开发 网 络 控制 协议 (NCP) ——ARPANET 
中 主机 - 主机 的 协议 。 作 为 网 络 控制 协议 的 伴随 物 ， 文 件 传 输 协 议 (FTP)、 远 程 登录 协 
i (TELNET) 和 电子 邮件 协议 (SMTP) 被 开发 出 来 。 在 1973 年 ，Vinton Cerf 和 Robert 
Kahn 提出 传输 控制 协议 (TCP) 并 最 终 成 为 TCP/IP 协议 套件 。 他 们 也 设计 了 一 种 用 于 连 
接 两 个 不 同 网 络 的 地 址 结构 和 网 关 结 构 。 以 他 们 在 ARPA 的 地 位 ， 设 计 师 远见 卓识 地 预 
见 了 因特网 的 进化 和 发 展 ， 虽 然 直 到 1983 年 1 月 ， 正 式 的 因特网 雏形 才 出 现 。TCP 用 一 
种 统一 的 方法 将 所 有 的 子 网 连接 成 网 络 的 网 络 (因特网 ) TCP 为 因特网 提供 了 可 靠 的 、 
具有 效率 的 文件 和 信息 传输 。 当 TCP/IP 协议 套件 在 1983 年 成 为 标准 协议 时 ，NCP 不 再 
被 使 用 了 。1973 到 1983 年 期 间 是 各 种 新 协议 得 到 实验 性 发 展 的 一 个 时 期 。 到 1981 年 ， 
ARPANET 已 经 标准 化 了 因特网 的 一 系列 基本 协议 (RFCs 791, 792, 783 ) : 寻 址 和 基础 的 
包 交 换 使 用 IP 协议 ， 对 于 有 序数 据 的 传输 使 用 TCP 协议 ， 对 于 数据 报 的 传输 使 用 UDP 
协议 ， 对 于 主机 间 文 件 的 手动 传输 使 用 FTP 协议， 远程 登录 使 用 TELNET 协议 ， 邮 件 传 
输 使 用 SMTP 协议 等 。 

英国 和 法 国政 府 也 同样 赞助 了 网 络 的 早期 研究 。 在 1967 年 ， 英 国 的 Donald Davies 
建立 了 一 个 单 节点 的 包 交 换 和 模拟 数据 包 网 络 。 在 1972 年 Louis Pouzin 创建 了 一 个 叫 
做 CYCLADES 的 网 络 ， 在 这 个 网 络 中 他 把 传递 数据 的 包 叫 做 数据 报 (datagram) (Pouzin 
1973, 1974)。 数 据 报 的 想法 也 被 TCP/IP 协议 所 吸收 。 然 而 ， 法 国政 府 更 希望 在 网 络 
数据 传输 中 保留 类 似 于 电话 网 络 的 结构 。 因 此 政府 转 而 支持 X.25 协议 的 研究 并 使 得 
CYCLADES 项 目 研 究 终止 。X.25 协议 在 美国 鲜 有 人 知 ， 因 为 只 有 GTE Telenet 公司 提供 
此 服务 。X.25 协议 的 主要 发 起 者 是 法 国 CCETT 的 成 员 Rémi Després 和 Paul Gulnaudeau、 
加 拿 大 TCTS 的 David Horton 和 Anton Rybezynsky, 美 国 Telenet 的 Larry Roberts 和 
Barry Wessler 、 英 国 邮政 局 的 Philip Kelly 和 John Wedlake、 日 本 NTT 的 Masao Kato。 他 
们 在 1976 年 提出 了 CCITT 采用 的 X.25 协议 标准 。 英 国 邮政 局 的 Chris Bloomfield 和 法 
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E| CCETT 的 Bernard Jamet 也 在 之 后 的 X.3, X.28, X.29 协议 的 字符 模式 接口 推荐 中 做 出 
了 短暂 贡献 。 更 多 的 细节 可 以 参看 Després(2010)。 

在 1981 年 ， 美 国 国家 科学 基金 NSF 通过 赞助 CSNET 进入 到 网 络 领域 ，CSNET 是 一 
个 连接 全 世界 CS (Compnuter Science， 计 算 机 科学 ) 的 研究 部 门 和 实验 室 的 网 络 。CSNET 
吸引 了 由 Larry Landweber、David Farber、Tony Hearn 和 Peter Denning 主导 的 高 校 联盟 
领导 下 的 很 多 人 员 。CSNET FT ARPANET TCP/IP 协议 的 系列 版 本 ， 并 且 证 明了 其 
远 优 于 电话 的 拨号 连接 和 X.25 连接 ， 也 没有 使 用 ARPANET 的 租借 电话 线路 的 标准 。 在 
1986 年 ，NSF 建立 了 骨干 网 络 NSFNET 来 连接 NSF 的 超级 计算 中 心 ， 这 加 强 了 其 在 网 
络 领域 的 话语 权 。 他 们 将 本 地 网 络 连接 到 主干 网 络 中 并 且 向 有 商业 往来 的 机 构 开 放 。 到 
1990 年 ， 这 个 新 兴 的 因特网 已 经 拥有 了 15 万 的 主机 ， 并 以 每 年 一 倍 的 速度 增长 。 

在 美国 网 络 发 展 的 同时 ，ISO 组 织 基 于 欧洲 X.25 协议 也 设计 了 OSI 协议 组 。 最 初 的 
OSI 协议 参考 模型 论文 出 现在 1978 年 ( 见 Zimmerman 1980 )， 协 议 标准 于 1984 年 由 ISO 
公布 。 在 接 下 来 的 十 五 年 中 ， 人 们 一 直 在 争论 TCP/IP 协议 和 OSI 协议 到 底 哪个 更 适用 于 
互联 网 。 直 到 大 约 1993 年 ， 美 国政 府 通过 其 国家 标准 技术 局 (NIST) 认为 TCP/IP 是 OSI 
协议 的 一 个 合理 蔡 代 协 议 ，TCP/IP 协议 最 终 成 为 了 因特网 标准 。 

然后 ，Internet 开始 缓慢 地 演化 为 商业 事务 的 媒介 。 在 20 世纪 70 年 代 中 期 ，ARPA 
鼓励 IJBM，DEC， 和 HP 加 入 到 研究 项 目 中 来 。 在 1985 年 ，ARPA All NSF 支持 CSNET 
的 成 员 在 ARPANET 上 进行 通信 ,但 是 当时 这 些 成 员 都 没有 利用 CSNET 的 连接 来 进 
行商 业 运 作 的 想法 。 在 1989 年 ，NSF 首次 将 NSFNET 的 基础 功能 一 一 Internet Service 
Providers(ISP) 交 给 商业 代理 商 代 理 ， 代 理 商 有 UUNET, PSINET 和 CERFNET， 还 有 一 
些 邮 件 功 能 代理 商 包 括 MCI Mail, Compuserve, OnTyme, Telemail 和 GENIE。 在 1989 年 ， 
由 计算 机 科学 家 Tim Berners-Lee 领导 的 CERN 实验 室 在 瑞士 的 一 个 小 组 ， 开 发 出 了 万 维 
网 ， 这 使 得 在 Internet 上 共享 文档 变 得 十 分 容易 。 随 着 第 一 个 万 维 网 的 可 视 化 接口 一 一 伊 
利 诺 伊 大 学 Marc Adnreessen 的 Mosaic 浏览 器 的 发 布 ， 万 维 网 在 1993 年 变 得 非常 热门 。 
从 那 以 后 ， 各 种 各 样 的 商业 公司 开始 开发 网 页 并 通过 互联 网 进行 商业 运作 。 

关于 万 维 网 的 起 源 可 以 追溯 到 20 世纪 60 年 代 Ted Nelson 关于 共享 网 络 中 数字 出 版 
的 建议 (Nelson 1980 ) 。 在 他 的 设想 里 ， 作 者 可 以 通过 一 个 称 为 Xanadu 的 系统 来 制作 电 
子 文档 ，Xanadu 系统 可 以 自动 处 理 出 版 、 分 发 、 版 税 和 版 权 ; 作者 可 以 使 用 超 文 本 进行 
创作 而 不 是 线性 地 书写 。Nelson 的 想法 一 直 没 有 实现 ， 直 到 20 世纪 80 年 代 ，AutoDesk 
买 下 了 他 的 Xanadu 公司 ， 并 且 将 这 个 软件 公 之 于 世 。 

同样 在 20 世纪 60 年 代 ，SRI 的 Douglas Engelbart 开展 了 一 个 通过 合作 来 增加 人 类 
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智慧 的 项 目 。 他 的 NLS (ER ABE) 支持 超 文 本 对 象 的 组 织 、 可 视 化 的 文字 交互 、 文 档 的 
协作 管理 、 内 艇 视频 、 弦 键盘 和 鼠标 控制 。 他 的 演示 说 明了 NLS 能 够 扩展 到 网 络 中 ， 使 
得 网 络 能 够 提升 人 类 智慧 。 

在 20 世纪 80 年 代 ， 美 国 国家 标准 协会 ANSI 成 立 了 一 个 关于 计算 机 文档 语言 的 委 
员 会 。 传 统 的 出 版 业 将 作者 手稿 用 特殊 符号 标记 以 便 印 刷 工 知道 如 何 设置 印刷 参数 。 在 
1985 Æ ANSI 提出 了 一 个 标准 通用 标识 语言 (SGML)， 一 种 描述 个 体 标记 语言 语法 的 
超 语言 。 通 过 SGML， 作 者 、 编 辑 和 出 版 方 能 够 自动 地 处 理 和 修改 文档 。Tim Berners- 
Lee 是 SGML 的 用 户 之 一 ， 他 使 用 SGML 的 原理 来 定义 关于 网 页 的 标记 语言 HTML, fh 
对 Internet 中 的 数字 对 象 引 入 了 URL (Uniform Resource Locator) 的 标签 ， 并 且 定 义 了 
HTTP 协议 来 自动 从 URL 连接 中 获取 特定 的 文档 。 这 结合 了 浏览 器、HTML、HTTP、 
URL 和 网 络 服务 器 的 实体 就 是 万 维 网 的 雏形 。Berners-Lee 在 1985 年 建立 了 万 维 网 络 联 
A (W3C) 来 监督 万 维 网 有 序 地 发 展 。 

3. Kleinrock 和 Baran 提出 信息 和 信息 块 的 概念 。 术 语 “ 包 ”由 Donald Davies 在 
1967 年 提出 并 很 快 被 公众 接受 。 

4. 包 的 大 小 到 底 应 该 一 样 还 是 可 以 不 同 ,一 直 是 一 个 广 为 争 论 的 问题 。 一 样 大 小 的 
包 受 到 碎片 的 限制 ， 即 最 后 一 个 包 会 有 无 用 的 一 部 分 数据 ， 在 最 后 一 个 包 中 ， 平 均 有 超过 
半数 的 部 分 是 无 用 的 数据 。 大 小 变化 的 包 可 以 很 好 地 适应 文件 大 小 的 改变 。 协 议 工 程 师 需 
要 衡量 碎片 的 消耗 和 额外 头 说 明 的 消耗 。 但 是 由 于 这 个 消耗 取决 于 网 络 、 文 件 分 布 和 通信 
量 大 小 ， 因 此 对 于 这 个 问题 仍 没有 很 好 的 答案 。 

5. 在 网 络 术语 中 最 常用 的 32 位 地 址 版 本 是 “JIP version 4”， 即 IPv4。 改 进 的 使 用 
128 位 地 址 的 协议 叫 “ IP version 6”, BP IPv6。 到 2014 年 仍 有 很 多 网 络 管理 员 没 有 升级 
网 络 来 支持 IPv6。 

6. 一 篇 在 维基 百科 上 的 条 目 “TCP 和 UDP 的 端口 号 列表 ”列举 了 上 百 个 在 0 ~ 1023 
之 间 的 “常用 端口 ” 。 大 量 使 用 1024-49151 端口 号 的 其 他 服务 也 已 经 被 IANA 注册 了 。 

7. 电脑 中 的 网 络 控制 模块 有 一 部 分 存储 了 DNS 服务 器 的 IP 地 址 ，DNS 服务 器 可 以 
将 电脑 用 户 中 的 域名 转化 成 卫 地址 。TCP 会 使 用 DNS 服务 器 。 

8. 域名 和 IP 地 址 的 管理 是 非常 复杂 的 ， 并 且 构 建 域 名 和 卫 地 址 的 层次 也 十 分 困难 。 
互联 网 名 称 与 数字 地 址 分 配 机 构 (ICANN, icann.org) 主要 负责 决定 顶级 域名 ， 并 且 为 层 
次 体系 中 下 层 域名 选择 管理 策略 。 包 含 了 顶级 域名 数据 库 的 根 服务 器 在 进行 更 新 时 会 使 
用 一 系列 复杂 但 是 安全 的 过 程 来 完成 更 新 。ICANN 会 将 计划 的 更 新 发 送 给 国家 技术 信息 
局 (NTIA), NTIA 将 这 些 更 新 发 送 给 Verisign 进行 确认 ; Verisign 生成 新 的 根 区 域 并 且 将 
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这 些 更 新 的 拷贝 发 送 给 13 个 根 区 域 的 执行 方 ， 执 行 方 包含 了 ICANN (一 个 根 服务 器 ) 和 
Verisign (两 个 根 服务 器 )。 每 个 根 服务 器 会 在 多 个 地 点 实现 更 新 ， 以 防止 失败 或 者 遭受 
攻击 ， 并 且 这 样 能 为 全 世界 其 余部 分 的 电脑 提供 快速 反应 。 在 2014 年 ， 全 世界 已 经 有 了 
385 个 根 服务 器 (http://www.iana.org/domains/root/servers)。ICANN 是 一 个 在 加 利 福 尼 亚 
的 全 球 性 的 非 营 利 组 织 ， 在 新 加 坡 、 伊 斯 坦 布尔 和 洛杉矶 都 拥有 国际 董事 会 和 执行 机 构 。 
ICANN 的 作用 之 一 就 是 分 配 IP 地 址 给 区 域 互 联网 注册 管理 机 构 ( RIR)， 这 一 功能 由 互联 
网 号 码 分 配 局 (IANA，iana.org) 管理 。RIR 制定 了 一 系列 由 ICANN 使 用 并 由 IANA 管 
理 的 全 球 性 规则 。 互 联网 工程 任务 组 (IETF，ietf.org) 设置 了 技术 性 的 标准 ， 这 些 标准 规 
定 了 IP 地 址 的 结构 、 分 配 和 布置 ,IETF 向 华盛顿 特区 的 非 僵 利 组 织 国际 互联 网 协会 负责 ， 
并 且 在 全 世界 都 有 办 公 室 和 分 会 。 

9. 我 们 在 第 10 章 讨 论 了 软件 工程 界 中 也 非常 有 名 的 层次 原理 。 层 次 是 向 下 层 提供 功 
能 的 软件 策略 。 在 网 络 中 ， 数 据 流 在 各 层 之 间 以 包 的 形式 上 下 流动 ， 每 一 层 只 对 包 进 行 特 
定 操作 。 在 软件 工程 中 ， 数 据 流 是 过 程 调用 的 参数 ， 只 人 允许 向 下 层 流 动 ， 并 且 只 能 通过 过 
程 返回 的 方式 回 到 上 层 。 

10.2014 £, Æ A Æ TLS HY OpenSSL 实现 中 发 现 了 一 个 缺陷 。 这 个 所 谓 的 
Heartbleed 漏洞 影响 了 17% 通过 https 进行 连接 的 主机 ， 并 且 使 得 入 侵 者 可 以 偷 取 密码 和 
加 密 密 钥 。 虽 然 该 漏洞 的 补丁 很 快 就 发 布 了 ， 但 是 依然 有 大 量 受到 影响 的 网 站 不 得 不 更 换 
密码 。 所 以 尽管 有 仔细 认真 的 设计 ， 软 件 中 依然 会 有 缺陷 ! 


第 12 章 

1. 在 《 What Technology Wants 》(Kelly 和 Kevin，2010，Viking) 这 本 书 中 ， 有 一 个 
相关 的 例子 。 

2. Joy, Bill. 2000. Why the future doesn t need us. Wired magazine, issue 8.04 

(April). http://archive.wired.com/wired/archive/8.04/joy.html. 

3. Æ 2014 4F 5H, Bas} - 霍金 对 一 部 新 电影 《 Transcendence 》 进 行 了 关于 操作 系 
统 发 展 智能 和 威胁 人 类 的 讨论 。 他 不 太 确信 计算 机 专家 正在 尝试 控制 随 着 资金 增长 的 风 
险 。 他 相信 自主 军事 技术 非常 容易 失控 。 

4. Rosenbloom, Paul. 2012. On Computing: The Fourth Great Scientific Domain. MIT 
Press. 

5. Brynjolfsson, Erik, and Andrew McAfee. 2014. The Second Machine Age: Work, 


Progress, and Prosperity in a Time of Brilliant Technologies. W. W. Norton. 
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伟大 的 计算 原理 


Great Principles of Computing 


理解 计算 ， 并 不 是 将 计算 机 当 作 工具 ,而 是 要 领会 应 用 于 计算 诸多 方面 和 示例 中 的 基础 原理 ”本 书 为 我 们 铺设 了 
条 发 气 这 些 基础 FFEA — 25% % T DenningFfeMartell 4 RME 5 WK pA AE, 你 会 发 现 这 本 书 不 是 填 鸭 A 
地 灌输 ， 而 是 需要 你 自己 去 发 气 、 吸 收 ， 并 将 它们 连 贵 起 来 ， 本 书 全 力 为 我 们 展现 这 样 一 个 全 面 的 视图 : 计算 是 人 
以 及 计算 又 是 Seren ] 到 我 们 居住 的 这 个 世界 的 


— Leonard Kleinrock， 加 州 大 学 洛杉矶 分 校 计算 机 科学 特聘 教授 


通过 努力 ， 几 乎 每 个 人 都 可 以 学 会 编程 ena 5 代码 并 不 足以 构建 辉煌 的 计算 世界 ， 要 完成 这 个 目标 起 
码 需 要 对 以 下 几何 方面 有 更 深入 的 认识 计算 机 是 如 何 工 作 的 ， 好 何 选择 算法 ， 计 算 系统 是 她 何 组 织 的 ， 以 及 如 何 进 
行 正 确 而 可 靠 的 设计 ， 如 何 开始 学 习 这 些 相 关 的 知识 呢 ? 本 书 就 是 一 个 方法 一 一 这 是 一 本 深思 熟 虑 地 综合 描述 计算 背 
后 的 基本 概念 的 书 通过 一 系列 详细 且 容 易 理 解 的 话题 ， 本 书 为 正在 学 习 如 何 认识 计算 ( 而 不 仅仅 是 用 某 种 程序 设计 
语言 进行 编码 ) 的 读者 提供 了 坚实 的 基础 ，Denning 和 Martell 确 实 为 计算 领域 的 学 生 呈 现 了 其 中 的 基本 原理 

一 一 Eugene H. Spafford， 普 渡 大 学 计算 机 科学 教授 


计算 通常 被 看 作 是 一 个 按照 摩尔 定律 高 速 发 展 的 技术 领域 。 如 果 我 们 稍 不 留意 ， 就 有 可 能 错过 一 个 划时代 的 技术 突 
者 翻天 覆 地 的 理论 发 展 。 该 书 从 一 个 不 同 的 视角 ， 把 计算 看 作 一 门 遵从 一 些 基本 原理 的 科学 ， ee es 
所 有 的 技术 。 计 算 机 科学 是 一 门 关 于 信息 处 理 的 科学 ， 我 们 需要 一 种 新 的 “语言 ”来 描述 这 门 科学 。 在 本 书 中 ，Denning 和 
Martell 给 出 了 一 个 重要 原理 框架 作为 这 种 语言 。 本 书 涵 盖 了 计算 的 方方面面 一 一 包括 算法 、 体 系 结构 和 设计 。 

Denning 和 Martell 将 计算 的 基本 原理 分 为 六 大 类 : 通信 、 计 算 、 协 作 、 记 忆 ( 存储 ) 、 评 估 和 设计 。 他 们 首先 对 作为 科 
学 的 计算 进行 了 概括 性 的 描述 ， 包 括 它 的 历史 、 与 其 他 领域 的 诸多 交互 、 应 用 领域 以 及 重要 原理 框架 的 结构 。 进 而 在 不 同 的 
领域 ( 包括 信息 、 机 器 、 程 序 设 计 、 计 算 、 存 储 、 并 行 、 排 队 和 设计 ) 中 验证 了 这 些 基 本 原理 。 最 后 ， 将 这 些 基 本 原理 应 用 
到 计算 机 网 络 ， 尤 其 是 因特网 之 中 。 

无 论 是 包含 计算 分 支 的 科学 和 工程 领域 中 的 专业 人 员 ， 还 是 想 要 大 致 了 解 计 算 机 科学 中 不 太 熟悉 的 计算 领域 的 从 业 人 

员 ， 抑 或 是 想 要 窥视 计算 机 科学 门 径 的 非 计 算 机 科学 专业 人 员 ， 本 书 都 是 适合 他 们 阅读 的 一 本 基础 读物 。 
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